CIRP: Corpus de Referencia do Galego Actual (CORGA)

O Centro Ramón Piñeiro para a investigación en humanidades inclúe entre os seus obxectivos fundacionais o deseño e o desenvolvemento de recursos informáticos que axuden á incorporación da lingua galega ao mundo das novas tecnoloxías da información. Co proxecto CORGA preténdese contribuír a ese obxectivo poñendo á disposición da comunidade científica un recurso accesible a través de Internet que posibilite a obtención de datos para o estudo de aspectos morfolóxicos, sintácticos e léxicos da historia recente da nosa lingua.

O Corpus de Referencia do Galego Actual (CORGA) é un corpus documental integrado por distintos tipos de textos representativos da lingua galega actual que están codificados na linguaxe estándar XML (eXtensible Markup Language) e que abranguen cronoloxicamente dende 1975 ata a actualidade. A codificación practicada afecta principalmente á información bibliográfica e á estruturación do documento e posibilita realizar consultas, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non, segundo diversos criterios que poden combinarse dependendo das necesidades do usuario: período temporal, área temática, tipo de documento, parte do documento etc.

O corpus enriqueceuse coa etiquetaxe automática de todos os documentos que o integran, e mais coa incorporación de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz, co que na recuperación de información é posible reproducir o fragmento sonoro que corresponde ao resultado que se amosa.

A aplicación que se deseñou para a extracción da información posibilita a obtención de datos lingüísticos mediante unha ferramenta de consulta que dá cabida ás diferentes aproximacións de busca: palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas, trazos morfolóxicos, lemas ou hiperlemas. Sobre estes datos, o sistema permite extraer as frecuencias simples e completas, visualizar a información recuperada en forma de concordancias ou obter o inventario dos elementos solicitados para a totalidade do corpus ou para cada un dos parámetros clasificatorios (lustro, medio, orixe, xénero, subtipo de documento, área temática ou sexo do autor). Engádese ademais na versión 4.0 a posibilidade de procurar nunha obra específica e por un certo autor ou polo sexo deste e, así mesmo, ofrécese un sistema de consulta da nómina de autores e obras que conforman o corpus e mais unha primeira versión para a procura de coaparicións.

Dirección

Guillermo Rojo
María Sol López Martínez

Coordinación lingüística

Eva María Domínguez Noya

Persoal vinculado

Equipo lingüístico

María Caíña Hurtado (2017-2019; 2021)
Nerea López Iglesias (2019)
Lara Lorenzo Herrera (2019-2021)
Vítor Míguez Rego (2020-2021)

Equipo informático

NLPgo Technologies, S.L.
José Carlos Sánchez Rivas

Membros anteriores do equipo lingüístico

M. Teresa Araújo García (1994-2001)
Anxo Bea Sampedro (2009-2012)
Diego Bernal Rico (2009-2009)
Xosé Bestilleiro Bello (2003-2003)
Cristina Blanco González (2001-2004)
Bárbara Bujía Tourón (2018-2020)
Bárbara Canziani Kristensen (2007-2008)
Silvana Castro García (2006-2007)
Amparo Cereixo Silva (2003-2006)
Ana Belén Crespo Bastos (2012-2014)
Inés Diz Gamallo (1994-2001)
Sandra Domínguez Carreiro (2005-2006)
Iván Enríquez Martínez (2016-2017)
Beatriz Fernández Paredes (2001-2004)
Susana Ferreiro García (1998-2001)
Francisco García Gondar (1994-2019)
Marcos García Salido (2012-2013)
Susana García Rodríguez (1997-2000)
Paula Gómez López (2008-2011)
Sonia Gómez Castro (2004-2006)
Déborah González Martínez (2001-2003)
Ana Ledo Villaverde (2000-2003)
Laura López Fernández (2009-2012)
Belén López Gómez (2004-2006)
Olalla Márquez Losada (2007-2010)
Mónica Martínez Baleirón (1998-2000)
M. Teresa Monteagudo Cabaleiro (1994-1998)
Xesús Mosquera Carregal (2000-2002)
Ana Orol González (2015-2017)
Natividad Otero Ares (2014-2015)
Luísa Pita Rubido (2001-2004)
Isabel Porto Cacheiro (2006-2009)
Antón Porto Sánchez (1998-1999)
Mario Regueira Fernández (2007)
Iria del Río Gayo (2007-2008)
Iria Gael Romay Fernández (2014-2016)
Damián Suárez Vázquez (2003-2005)
Sonia Varela Pombo (1998-2001)
Pilar Vázquez Grandas (1994-1998)
Susana Vázquez Recarey (2004-2007)

Membros anteriores do equipo informático

Fco. Mario Barcala Rodríguez (2000-2015)
Fernando Magán Muñoz (1994-2016) ✝
Miguel Ángel Molinero Álvarez (2005-2006)
Jesús Rodríguez Castro (1995-1998)

Resultados

Corpus de Referencia do Galego Actual (CORGA)
Rojo, Guillermo; Marisol López Martínez, Eva Domínguez Noya e Fco. Mario Barcala (2022): Listaxes de frecuencias do Corpus de Referencia do Galego Actual (CORGA), versión 4.0, Centro Ramón Piñeiro para a investigación en humanidades, https://corpus.cirp.gal/corga/frecuencias/etiquetado%20automaticamente

Publicacións resultantes

Darriba, Víctor; Yerai Doval e Elmurod Kuriyozov (2021): “Procesamiento de Expresiones Multipalabra en gallego mediante Aprendizaje Profundo”, Procesamiento del Lenguaje Natural 67, pp. 45-57.
Domínguez Noya, Eva Mª e María Sol López Martínez (2021): “A extracción de información fraseolóxica no CORGA: 3 actividades iniciáticas e 10 propostas para levar á aula”, Cadernos de Fraseoloxía Galega 20, pp. 41-65.
Domínguez Noya, Eva Mª; María Sol López Martínez e Fco. Mario Barcala Rodríguez (2020): “O Corpus de Referencia do Galego Actual (CORGA): composición, codificación, etiquetaxe e explotación”, en Marta Blanco, Hella Olbertz e Victoria Vázquez Rozas (eds.): Corpus y construcciones. Perspectivas hispánicas, Anexo Verba 79, pp. 179-218. https://dx.doi.org/10.15304/9788417595876
Caíña Hurtado, María; Eva Mª Domínguez Noya e María Sol López Martínez (2019): “A linguaxe non sexista no CORGA: descrición e reflexión sobre as variantes empregadas”, Madrygal. Revista de Estudios Gallegos 22, pp. 73-91. https://doi.org/10.5209/madr.66853
Domínguez Noya, Eva Mª e Fco. Mario Barcala Rodríguez (2018): “Grafías innovadoras na linguaxe non sexista: unha proposta para a súa etiquetaxe automática”, en Marta Díaz, Gael Vaamonde, Ana Varela, Mª Carmen Cabeza, José M. García-Miguel e Fernando Ramallo (eds.): Actas do XIII Congreso Internacional de Lingüística Xeral, Universidade de Vigo, pp. 291-298.
Domínguez Noya, Eva Mª; María Caíña Hurtado e Mª Sol López Martínez (2018): “Variación e normativización no galego”, en Marta Díaz, Gael Vaamonde, Ana Varela, Mª Carmen Cabeza, José M. García-Miguel e Fernando Ramallo (eds.): Actas do XIII Congreso Internacional de Lingüística Xeral, Universidade de Vigo, pp. 299-306.
Domínguez Noya, Eva Mª (2018): “Ás voltas con cerca de, a valoración aproximativa e os complementos de medida”, Cadernos de Lingua 36, pp. 31-79.
Domínguez Noya, Eva Mª e Marisol López Martínez (2017): “Tratamento da variación lingüística no CORGA”, en Marta Negro Romero, Rosario Álvarez e Eduardo Moscoso Mato (eds.): Gallaecia. Estudos de lingüística portuguesa e galega, Universidade de Santiago de Compostela, pp. 421-440.
Rojo, Guillermo; Marisol López Martínez, Eva Mª Domínguez Noya e Fco. Mario Barcala (2016): “O corpus de referencia do galego actual (CORGA): estado actual e perspectivas”, en Manuel González González (ed.): Lingua, pobo e terra. Estudos en homenaxe a Xesús Ferro Ruibal, Santiago de Compostela, Xunta de Galicia - Centro Ramón Piñeiro para a investigación en humanidades, pp. 445-473.
Domínguez Noya, Eva Mª (2016): “O etiquetador probabilístico de XIADA e o seu teito de acerto: a elaboración de regras lingüísticas”, en Manuel González González (ed.): Lingua, pobo e terra. Estudos en homenaxe a Xesús Ferro Ruibal, Santiago de Compostela, Xunta de Galicia - Centro Ramón Piñeiro para a investigación en humanidades, pp. 213-232.
López Martínez, María Sol (2016): “O emprego do presente para falar de futuro na prensa escrita”, en Esther Corral Díaz, Elvira Fidalgo Francisco e Pilar Lorenzo Gradín (eds.): Cantares de amigos. Estudos en homenaxe a Mercedes Brea, Servizo de Publicacións e Intercambio Científico, Universidade de Santiago de Compostela, pp. 533-545.
Domínguez Noya, Eva Mª (2014): “Etiquetación y desambiguación automáticas en gallego: el sistema XIADA”, Procesamiento del Lenguaje Natural 52, pp. 93-96.
Domínguez Noya, Eva Mª (2013): Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA. Tese de doutoramento. Universidade de Santiago de Compostela. Minerva: Repositorio Institucional da USC <http://hdl.handle.net/10347/9587>.
Domínguez Noya, Eva Mª (2012): “Partículas exceptivas: problemas de delimitación e proposta de análise”, Cadernos de Lingua 34, pp. 5-64.
López Martínez, María Sol (2012): “As expresións de futuro de ‘ir + infinitivo’ na prensa escrita”, en Tomás Jiménez Juliá, Belén López Meirama, Victoria Vázquez Rozas e Alexandre Veiga (eds.): Cum corde et in nova grammatica: Estudios ofrecidos a Guillermo Rojo, Servizo de Publicacións e Intercambio Científico, Universidade de Santiago de Compostela, pp. 487-500.
Domínguez Noya, Eva e Xesús Manuel Mosquera Carregal (2011): “Corrector ortográfico especializado para o proxecto IANUS”, en Xesús M. Mosquera Carregal (ed.), Lingua e Sanidade: VII Xornadas sobre Lingua e Usos, A Coruña, Universidade da Coruña, Servizo de Normalización Lingüística / Servizo de Publicacións, pp. 91-123.
Barcala Rodríguez, Fco. Mario (2010): Corpus lingüísticos estruturados de grandes dimensións: Metodoloxía e sistemas de recuperación de información. Tese de doutoramento. Universidade da Coruña.
Domínguez Noya, Eva; Fco. Mario Barcala Rodríguez e Miguel Ángel Molinero Álvarez (2009): “Avaliación dun etiquetador automático estatístico para o galego actual: Xiada”, Cadernos de Lingua 30/31, pp. 151-193.
Domínguez Noya, Eva Mª (2008): “O Corpus de Referencia do Galego Actual (CORGA): presente e futuro”, en Ernesto González Seoane, Antón Santamarina e Xavier Varela Barreiro (eds.): A lexicografía galega moderna. Recursos e perspectivas, Colección Base. Serie Lingüística 6, Santiago de Compostela, Consello da Cultura Galega / Instituto da Lingua Galega, pp. 139-151.
Barcala, Fco. Mario; Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río e Susana Sotelo (2007): “A Corpus and Lexical Resources for Multi-word Terminology Extraction in the Field of Economy in a Minority Language”, en Zygmunt Vetulani (ed.): Human Language Technologies as a Challenge for Computer Science and Linguistics. Proceedings of 3rd Language & Technology Conference, Poland, pp. 359-363.
Barcala, Fco. Mario; Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo, María Paula Santalla del Río e Susana Sotelo (2007): “El proyecto Gari-Coter en el seno del proyecto RICOTERM”, Procesamiento del Lenguaje Natural 39, pp. 295-296.
Barcala, Fco. Mario; Miguel A. Molinero, Eva Domínguez (2007): “XML rules for enclitic segmentation”, Computer Aided Systems Theory - EUROCAST 2007, Revised Selected Papers, Lecture Notes in Computer Science, 4739 Springer-Verlag, Berlin-Heidelberg-New York, pp. 273-281.
Barcala, Fco. Mario; Miguel A. Molinero, Eva Domínguez (2007): “XML rules for enclitic segmentation”, en Alexis Quesada-Arencibia, José Carlos Rodríguez-Rodríguez, Roberto Moreno-Díaz jr., Roberto Moreno-Díaz (eds.): Proc. of Eleventh Computer Aided Systems Theory - EUROCAST 2007, Extendeds Abstracts, Las Palmas de Gran Canaria, pp. 93-94.
Molinero, Miguel A.; Fco. Mario Barcala, Juan Otero, Jorge Graña (2007): “Practical application of one-pass Viterbi algorithm in tokenization and part-of-speech tagging”, Proc. of International Conference RANLP 2007, Recent Advances in Natural Language Processing, Borovets, Bulgaria, pp. 35-40.
Barcala, Fco. Mario; Miguel A. Molinero e Eva Domínguez (2005): “Information Retrieval and Large Text Structured Corpora”. Computer Aided Systems Theory - EUROCAST 2005, Revised Selected Papers, Lecture Notes in Computer Science, 3643, Springer-Verlag Berlin, Heidelberg, New York, pp. 91-100.
Barcala, Fco. Mario; Miguel A. Molinero e Eva Domínguez (2005): “Information Retrieval and Large Text Structured Corpora”, en Alexis Quesada-Arencibia, Roberto Moreno-Díaz jr. and José-Carlos Rodríguez (eds.): Proc. of Tenth International Conference on Computer Aided Systems Theory - EUROCAST 2005, Extended Abstracts, Las Palmas de Gran Canaria, pp. 55-57.
Barcala, Fco. Mario; Miguel A. Molinero e Eva Domínguez (2005): “Construcción de sistemas de recuperación de información sobre córpora textuales estructurados de grandes dimensiones”, Procesamiento del Lenguaje Natural 34, pp. 41-48.
López Martínez, María Sol (2005): “El ‘Corpus de Referencia del Gallego Actual’ (CORGA). Problemas de configuración y anotación”, en Claus D. Pusch, Johannes Kabatek e Wolfgang Raible (eds.): Romanistische Korpuslinguistik II = Romance Corpus Linguistics II: Korpora und diachrone Sprachwissenschaft = Corpora and Diachornic Linguistics, Tübingen, Gunter Narr, pp. 281-292.
López Martínez, María Sol (2004): “CORGA (Corpus de Referencia del Gallego Actual)”, Hizkuntza-corpusak: Oraina eta geroa.
Vilares, Manuel; Juan Otero, Fco. Mario Barcala, Eva Domínguez (2004): “Automatic Spelling Correction in Galician”, en José Luis Vicedo, Patricio Martínez-Barco, Rafael Muñoz e Maximiliano Saiz Noeda (eds.): Advances in Natural Language Processing, volume 3230 of Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin-Heidelberg-New York, pp. 51-57.
Barcala, Fco. Mario; Eva M. Domínguez, Miguel A. Alonso, David Cabrero, Jorge Graña, Jesús Vilares, Manuel Vilares, Guillermo Rojo, M. Paula Santalla e Susana Sotelo (2002): “El sistema ERIAL: LEIRA, un entorno para RI basado en PLN”, en Emilio Sanchís, Lidia Moreno e Isidoro Gil (eds.): Actas de las I Jornadas de Tratamiento y Recuperación de Información (JOTRI), Editorial UPV, Valencia, pp. 173-174.
Barcala, Fco. Mario; Eva M. Domínguez, Miguel A. Alonso, David Cabrero, Jorge Graña, Jesús Vilares, Manuel Vilares, Guillermo Rojo, M. Paula Santalla e Susana Sotelo (2002): “Una aplicación de RI basada en PLN: el proyecto ERIAL”, en Emilio Sanchís, Lidia Moreno e Isidoro Gil (eds.): Actas de las I Jornadas de Tratamiento y Recuperación de Información (JOTRI), Editorial UPV, Valencia, pp. 165-172.
Graña, Jorge; Fco. Mario Barcala e Jesús Vilares (2002): “Formal Methods of Tokenization for Part-of-Speech Tagging”, en Alexander Gelbukh (ed.): Computational Linguistics and Intelligent Text Processing, volume 2276 of Lecture Notes in Computer Science, Springer-Verlag, Berlin-Heidelberg-New York, pp. 240-249.
Graña, Jorge; Miguel A. Alonso e Manuel Vilares (2002): “A Common Solution for Tokenization and Part-of-Speech Tagging: One-Pass Viterbi Algorithm vs. Iterative Approaches”, en Petr Sojka, Ivan Kopecek e Karel Pala (eds.): Text, Speech and Dialogue, volume 2448 of Lecture Notes in Artificial Intelligence, Springer-Verlag, Berlin-Heidelberg-New York, pp. 3-10.
López Martínez, María Sol e Francisco García Gondar (2002): “Presentación do proxecto CORGA: Corpus de Referencia do Galego Actual”, en Mª Xesús Bugarín López et al. (eds.): Actas da VIII Conferencia Internacional de Linguas Minoritarias, Santiago de Compostela, pp. 359-343.

Participación en reunións científicas, congresos, encontros, cursos e outros eventos

TechLING 2021-UVigo-T&P (6th International techLING Congress - Languages, Linguistics and Technology). Universidade de Vigo, 15-17 de decembro de 2021. “A nomenclatura científica binomial no Corpus de Referencia do Galego Actual: unha proposta de análise extensible a outros corpus e linguas:” Eva María Domínguez Noya e Vítor Míguez Rego.
LingüísticaMenteLingüística: Diálogos entre a lingüística, a psicoloxía e a psicolingüística. Santiago de Compostela, 6 de xullo de 2021. “TILG e CORGA: dous corpus do galego”: Eva María Domínguez Noya e María Sol López Martínez.
Análise avanzada de textos e corpus textuais. Santiago de Compostela, 28-30 de xuño, 1-2 de xullo de 2021. “Utilización de operadores booleanos e metacaracteres (‘comodíns’)”: Eva María Domínguez Noya e María Sol López Martínez.
Análise avanzada de textos e corpus textuais. Santiago de Compostela, 28-30 de xuño, 1-2 de xullo de 2021. “Combinación de características e creación de subcorpus virtuais”: María Sol López Martínez e Eva María Domínguez Noya.
Análise avanzada de textos e corpus textuais. Santiago de Compostela, 28-30 de xuño, 1-2 de xullo de 2021. “Anotación morforsintáctica de corpus”: Eva María Domínguez Noya e María Paula Santalla del Río.
XII Congreso Internacional de Lingüística de Corpus (CILC2021). Universidad de Murcia, 28-30 de abril de 2021. “Orden en el caos: estrategias para el reconocimiento automático de las variantes gráficas presentes en el Corpus de Referencia do Galego Actual (CORGA)”: Eva María Domínguez Noya.
XII Congreso Internacional de Lingüística de Corpus (CILC2021). Universidad de Murcia, 28-30 de abril de 2021. “Un desafío para la etiquetación automática: la nomenclatura científica en el Corpus de Referencia do Galego Actual (CORGA)”: Eva María Domínguez Noya e Vítor Míguez Rego.
Anotación e explotación de corpus orais. Santiago de Compostela, 3-4 de outubro de 2019. “Taller sobre anotación morfosintáctica: factores lingüísticos e computacionais”: Fco. Mario Barcala Rodríguez, Eva María Domínguez Noya e M.ª Paula Santalla del Río (2019).
Corpus textuais: teoría e práctica. Santiago de Compostela, 2 de xullo de 2019. “Corpus de referencia: CORGA. Características do CORGA. Análise de fenómenos léxicos. Análise de fenómenos gramaticais. Buscas complexas”: Eva María Domínguez Noya e María Sol López Martínez.
XXXIV Congreso Internacional de la Asociación de Jóvenes Lingüistas. Valencia, 18-20 de setembro de 2019. “El lenguaje no sexista en el gallego actual: análisis del uso de las grafías innovadoras en los textos del Corpus de Referencia do Galego Actual (CORGA)”: Ana Clotilde Bravo García, Bárbara Bujía Tourón, María Caíña Hurtado e Nerea López Iglesias.
Corpus textuais: teoría e práctica. Santiago de Compostela, 1-5 de xullo de 2019. “Corpus de referencia: CORGA. Características do CORGA. Análise de fenómenos léxicos. Análise de fenómenos gramaticais. Buscas complexas”: Eva Mª Domínguez Noya e María Sol López Martínez.
La segmentación del discurso hablado: las propuestas de la languague-into-act theory y del grupo VAL.ES.CO. Universidad Complutense de Madrid, Madrid, 22 de febreiro de 2019. Eva Mª Domínguez Noya.
Corpus e construcións: perspectivas hispánicas. Santiago de Compostela, 22-23 de novembro de 2018. “O Corpus de Referencia do Galego Actual (CORGA): composición e explotación”: María Sol López Martínez, Eva Mª Domínguez Noya e Fco. Mario Barcala Rodríguez.
Corpus e construcións: perspectivas hispánicas. Santiago de Compostela, 22-23 de novembro de 2018. “A extracción e selección de exemplos en corpus para a elaboración dunha gramática comunicativa do galego”: Ana Clotilde Bravo García, María Caíña Hurtado e Nerea López Iglesias.
O Centro Ramón Piñeiro e a investigación lingüística. Xornada de conmemoración dos 25 anos do Centro Ramón Piñeiro para a Investigación Lingüística. Santiago de Compostela, 12 de novembro de 2018. “Corpus de referencia do galego actual (Corga)”: María Sol López Martínez, Eva Mª Domínguez Noya e Fco. Mario Barcala Rodríguez.
XII Congreso da Asociación Internacional de Estudos Galegos. Madrid, 10-15 de setembro de 2018. “As humanidades dixitais no foco da investigación do Centro Ramón Piñeiro para a investigación en humanidades (CRPIH)”: Mercedes Brea López, Ana Blanca Roig Rechou, María Sol López Martínez, Eva Mª Domínguez Noya e Manuel González González.
XII Congreso da Asociación Internacional de Estudos Galegos. Madrid, 10-15 de setembro de 2018. “A linguaxe non sexista no CORGA: descrición e reflexión sobre as variantes empregadas”: María Caíña Hurtado, Eva Mª Domínguez Noya e María Sol López Martínez.
XIII Congreso Internacional de Lingüística Xeral (CILX 2018). Vigo, 13-15 de xuño de 2018. “Variación e normativización no galego”: Eva Mª Domínguez Noya, María Caíña Hurtado e María Sol López Martínez.
XIII Congreso Internacional de Lingüística Xeral (CILX 2018). Vigo, 13-15 de xuño de 2018. “Grafías innovadoras na linguaxe non sexista: unha proposta para a súa etiquetaxe automática”: Eva Mª Domínguez Noya e Fco. Mario Barcala Rodríguez.
Xornadas de Fraseoloxía multilingüe na aula. Santiago de Compostela, 4, 5 e 12 de maio de 2018. “Traballar a fraseoloxía cos corpus: o CORGA na aula”: Eva Mª Domínguez Noya e María Sol López Martínez.
III Congresso Internacional de Lingüística Histórica - Gallaecia III. Santiago de Compostela, 27-30 de xullo de 2015. “O tratamento da variación lingüística no CORGA”: Eva Mª Domínguez Noya e María Sol López Martínez.
Semana cultural de Galicia en el IIFL. México DF, 26-29 de setembro de 2011. “Configuración de corpus en lengua gallega”: María Sol López Martínez.
Semana cultural de Galicia en el IIFL. México DF, 26-29 de setembro de 2011. “Elaboración de corpus lingüísticos que reflejen el habla de una comunidad”: María Sol López Martínez.
VII Xornadas Lingua e Usos. Lingua e Sanidade. A Coruña, 1-3 de decembro de 2010. “Corrector ortográfico especializado para o proxecto IANUS”: Eva Mª Domínguez Noya e Xesús Manuel Mosquera Carregal.
RANLP 2007: Recent Advances in Natural Language Processing. Borovets (Bulgaria), 27-29 de setembro de 2007. “Practical Application of One-Pass Viterbi Algorithm in Tokenization and Part-of-Speech Tagging”: Miguel Molinero Álvarez, Fco. Mario Barcala Rodríguez, Juan Otero Pombo, Jorge Graña Gil.
EUROCAST 2007: Eleventh International Conference on Computer Aided Systems Theory. Las Palmas de Gran Canaria, 12-16 de febreiro de 2007. “XML Rules for Enclitic Segmentation”: Fco. Mario Barcala Rodríguez, Miguel A. Molinero Álvarez e Eva Mª Domínguez Noya.
A lexicografía galega do século XXI. Santiago de Compostela, 16 de novembro de 2006. “O Corpus de Referencia do Galego Actual (CORGA): presente e futuro”: Eva Mª Domínguez Noya.
VIII Encontros para a Normalización Lingüística. Santiago de Compostela, 20-22 de xaneiro de 2005. “Corpus de Referencia do Galego Actual”: María Sol López Martínez.
ESTAL 2004: España for Natural Language Processing. Alicante, 20-22 de outubro de 2004. “Automatic Spelling Correction in Galician”: Manuel Vilares, Juan Otero, Francisco Mario Barcala, Eva Domínguez.
2nd Freiburg Workshop on Romance Corpus Linguistics. Corpora and Historical Linguistics. Freiburg im Breisgau (Alemania), 11-13 de setembro de 2003. “El Corpus del Gallego Actual (CORGA). Problemas de configuración y anotación”: María Sol López Martínez.
Jornadas sobre Corpus Lingüísticos: Presente y futuro. Donostia, 24-25 de outubro de 2002. “CORGA (Corpus de Referencia do Galego Actual)”: María Sol López Martínez.
VIII Conferencia internacional de linguas minoritarias. Santiago de Compostela, 22-24 de novembro de 2001. “Presentación do proxecto CORGA (Corpus de Referencia do Galego Actual)”: María Sol López Martínez e Francisco García Gondar.

Historial de versións

En outubro de 2001 o CORGA púxose, por primeira vez, dispoñible para a súa consulta a través da rede. Esta primeira versión experimental, constituída por 12,5 millóns de formas, presentou unha codificación mínima e unha cabeceira sinxela que permitían a recuperación da información consonte unha serie de parámetros (ano, medio e área temática). En xaneiro de 2003 actualizouse esta versión, incrementando o número de formas ata os 17,5 millóns.

No ano 2004 publícase unha nova versión constituída por 7 millóns de formas ortográficas, para a que se emprega unha codificación XML dos documentos. Este novo sistema convive coa versión anterior, dado que non todos os textos contidos na versión do 2003 están presentes no novo sistema.

No 2007 púxose dispoñible unha nova versión do sistema que manexa case 20 millóns de formas e que xa inclúe todos os documentos da versión antiga e moitos outros documentos novos. Ademais, esta nova versión inclúe novas e significativas posibilidades de busca: consulta da nómina de autores e obras, interconexión do sistema de buscas co sistema de nómina etc., o que posibilita ter uns valores de referencia moi útiles á hora de extraer conclusións a partir da análise de resultados.

No 2008 publícase a versión 1.3, que contén 23 millóns de formas.

No 2009 publícase a versión 1.4, con 25 millóns de formas e, ademais, a versión 1.0 dun sistema máis avanzado de buscas que traballa con 250.000 formas ortográficas correctamente etiquetadas e lematizadas.

No ano 2010 publícase a versión 1.5, con 25,8 millóns de formas e a versión 2.4 do sistema de buscas do corpus etiquetado que contén 360.000 formas ortográficas.

No ano 2013 publícase a versión 1.6, con 29 millóns de formas e a versión 2.5 do sistema de buscas do corpus etiquetado que contén 499.000 formas ortográficas.

No ano 2015 publícase a versión 1.7, con 31,9 millóns de formas e a versión 2.6 do sistema de buscas do corpus etiquetado que contén 617.042 formas ortográficas.

No ano 2017 publícase a versión 3.0, con 36,8 millóns de formas, que incorpora melloras significativas. Entre elas destacan a etiquetaxe morfosintáctica automática de todos os documentos que integran o CORGA, a visualización dos resultados mediante concordancias, a presentación das estatísticas en gráficos e a incorporación de transcricións ortográficas nas que se aliña o texto co audio.

Cómpre destacar, así mesmo, que a versión 3.0 unifica os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca: consulta por palabras ortográficas, elementos gramaticais, clases de palabras, etiquetas ou lemas, tanto no subcorpus desambiguado manualmente como no CORGA etiquetado automaticamente.

En abril do ano 2019 preséntase a versión 3.1, con 40,2 millóns de formas, na que se incrementa o volume textual para os dous últimos lustros e se producen melloras cualitativas na etiquetaxe, entre as que sobresae facilitar o recoñecemento automático das formas con grafías innovadoras que perseguen unha linguaxe inclusiva. Cómpre destacar, así mesmo, a implementación do hiperlema nas modalidades de consulta por elementos gramaticais como un parámetro máis de axuda para a recuperación de información que minimiza a variación gráfica nos lemas.

En decembro do ano 2019 publícase a versión 3.2, que non incorpora novos textos mais si dúas melloras moi significativas nas funcionalidades que ofrece. Por unha banda, a visualización da información recuperada en forma de expresións coincidentes, de maneira que os resultados coincidentes redúcense a un único. Por outra banda, a xeito de dicionario de frecuencias, facilítase a obtención personalizada das frecuencias relativas a formas, etiquetas, lemas e hiperlemas mediante os parámetros lingüísticos e clasificatorios dispoñibles no sistema.

En xaneiro de 2022 ponse á disposición pública a versión 4.0, constituída por 43 millóns de formas ortográficas. Nela, as modalidades anteriormente denominadas Expresións coincidentes e Dicionario de frecuencias intégranse en Inventario, co cal se poden obter os elementos solicitados para a totalidade do corpus ou para cada un dos parámetros clasificatorios (lustro, medio, orixe, xénero, subtipo de documento, área temática ou sexo do autor). Engádese ademais nesta versión a posibilidade de procurar nunha obra específica e por un certo autor ou polo sexo deste e, así mesmo, recupérase o sistema de consulta da nómina de autores e obras que compoñen o corpus e ofrécese unha primeira versión para a procura de coaparicións. Por último, dende o punto de vista da anotación morfosintactica, ademais doutras melloras, cabe subliñar a lematización automática para os adverbios en -mente, os apreciativos en -iño, os elativos, as formas co prefixo auto- e unha parte das formas que presentan gheada, así como un incremento substancial no recoñecemento das unidades multipalabra, entre as que salientan as expresións científicas binomiais.

Estado actual

Actualmente estase a traballar, por unha banda, na incorporación de novos textos que fagan este corpus cada vez máis representativo e, por outra, na mellora de funcionalidades e ampliación da base documental que utiliza o novo sistema de buscas.

Paralelamente tamén se está a traballar na mellora dun analizador morfolóxico de alta precisión, que xa se está empregando como ferramenta de axuda para anotar e desambiguar os documentos do CORGA. O fin último é desenvolver unha segunda xeración de sistemas de consulta sobre o CORGA completo que permitirá utilizar información lingüística (lemas, hiperlemas, categorías gramaticais etc.) para facer diferentes tipos de procuras.

Acceso

Accédese a este recurso, libre e de balde, sen necesidade de rexistro previo, no enderezo:

http://corpus.cirp.gal/corga

Contacto

Se ten algunha dúbida ou pregunta sobre calquera aspecto relacionado con este proxecto, pode contactar con nós a través de: [email protected]