Ciencia y Tecnología

Nace o maior dicionario multilingüe do galego

guinovartt

O galego conta cun novo recurso de lingüística computacional, o GalNet, a versión galega do WordNet. Investigadores do Seminario de Lingüística Informática da Universidade de Vigo, co profesor Xavier Gómez Guinovart á cabeza, foron os encargados de desenvolver esta ferramenta no marco do proxecto Skater, no que participaron tamén as universidades do País Vasco, Pompeu Fabra, Barcelona e Politécnica de Cataluña. Trátase dun proxecto con financiamento estatal de tres anos de duración cun orzamento total de 400.000 euros, do que nos vindeiros meses arrancará unha segunda parte. Os seis grupos de investigación implicados desenvolveron seis subproxectos que, no caso de Vigo estivo centrado en desenvolver este novo recurso de lingüística computacional.

Como explica o profesor Guinovart, o GalNet é unha rede léxico semántica para lingua galega, un recurso léxico estándar para todas as aplicacións informáticas que traballan coa linguaxe. “Ten moitas utilidades, pero principalmente é un dicionario electrónico para que os programas que procesan linguaxe sexan capaces de deducir o significado das frases e actuar en consecuencia”. É, por exemplo, o recurso que emprega o Google Translate, como apoio no seu proceso de tradución en calquera das linguas que contan co seu WordNet. O director do Seminario de Lingüística Informática subliña que o tradutor de Google segue un modelo estatístico, de modo que almacena moitas traducións entre dúas linguas e, a partir de aí, deduce as regras que traducen entre unha e outra lingua.

“Pero ás veces as inferencias estatísticas non chegan para producir unha tradución aceptable e necesita recorrer a recursos máis precisos como os dicionarios bilingües e, neste caso, o recurso multilingüe seleccionado é o WordNet, porque é o maior dicionario multilingüe tanto en número de linguas como en número de palabras e conceptos”. Ademais, polo formato propio de WordNet, pensado para ser manexado por ordenadores, permite unha utilización moi doada no ámbito da lingüística computacional ou do procesamento da linguaxe natural. Con todo, e a pesar de que está deseñado para ser empregado no eido da intelixencia artificial, “tamén ofrece moitas utilidades para a consulta lexicográfica directa dos seus contidos”.

Conceptos en lugar de palabras

O WordNet e o GalNet funcionan con conceptos ou sentidos, fronte aos dicionarios tradicionais que o fan con palabras. “Os conceptos almacénanse coas súas relacións semánticas, por iso é unha rede léxico semántica: os nós da rede son conceptos, e os fíos que unen os nós da rede son as relacións semánticas”. A rede inclúe holónimos, merónimos, hiperónimos, hipónimos, palabras relacionadas por outro tipo de relacións semánticas e palabras relacionadas pola súa definición. Por exemplo, o concepto de man ten unha relación semántica co concepto de dedo como parte da man, e iso é así en calquera lingua, de xeito que permite unha navegación intelixente e, posto que o WordNet comprende centos de linguas, xérase unha contorna en rede que o converte no maior dicionario multilingüe do mundo.

O número de conceptos pretendidos para cada lingua no WordNet está arredor dos 150.000, e ese é reto dos investigadores vigueses. Na actualidade, e finalizada a primeira fase do proxecto, teñen cubertos 33.000 conceptos, que inclúen un total de 50.000 palabras. O inglés, que a lingua pioneira nesta ferramenta, conta con 117.000 conceptos cubertos e 206.000 palabras, pero como lembra o profesor Guinovart, cómpre ter en conta que comezaron a traballar neste campo dende a Universidade de Princeton en 1985, mentres que o WordNet do galego arrancou hai apenas tres anos.

También te puede interesar