Agência UFC: Grupo cria ferramentas computacionais para tradução do nheengatu, única língua viva descendente do tupi antigo

Conhecida como nheengatu, a língua geral amazônica (LGA) é a única língua viva descendente do tupi antigo. Contudo, com apenas 6 mil falantes no Brasil e 8 mil na Colômbia, o idioma se encontra em risco de extinção. Para preservar a memória e ampliar o conhecimento sobre esse tupi moderno, o grupo de pesquisa Computação e Linguagem Natural (COMPLIN), da Universidade Federal do Ceará, vem criando uma série de ferramentas computacionais para o processamento do nheengatu, que permite a investigação de sua estrutura gramatical e amplia suas possibilidades de tradução.

Antes focado sobretudo no português, o grupo começou, há três anos, a aplicar os estudos da linguística computacional ao nheengatu. De acordo com o líder do grupo, Prof. Leonel Figueiredo de Alencar Araripe, apesar de sua importância histórica, cultural e linguística, ainda não havia nada em termos de ferramentas e recursos para o processamento computacional da LGA.

Desembarque de Pedro Álvares Cabral, de Oscar Pereira da Silva: língua foi adotada pelos portugueses para comunicação com povos indígenas (Imagem: Reprodução)

A primeira ferramenta criada foi o GrammYEP, o tradutor automático pioneiro em uma língua indígena brasileira. Concluída em 2020, essa gramática computacional traduz textos simples com sentenças que expressam qualidades, estados e localizações de pessoas e objetos, levando em conta os padrões gramaticais e a semântica (isto é, o significado das palavras e frases) do tupi moderno.

A ferramenta traduz a LGA para o português e o inglês, e também é capaz de traduzir do nheengatu para as duas línguas. Agora, o projeto está sendo expandido para que a tradução seja permitida entre a língua indígena e outros 30 idiomas.

Entretanto, para avançar na qualidade e no escopo dessas traduções, foi preciso criar uma nova ferramenta, com a função de organizar as classes gramaticais das palavras. Assim, foi elaborado o Nheentiquetador, um etiquetador morfossintático do nheengatu. O grupo trabalha agora na criação de um analisador sintático automático, que dará mais precisão às traduções automáticas do GrammYEP.

Essas ferramentas computacionais são o tema da reportagem desta semana da Agência UFC, o canal de divulgação científica da Universidade. A matéria esclarece como funcionam esses inventos, aponta quais as suas contribuições e apresenta um breve histórico sobre a origem do nheengatu e seu atual panorama.

Fonte: Prof. Leonel Figueiredo de Alencar Araripe, do Programa de Pós-Graduação em Linguística e criador do  grupo de pesquisa Computação e Linguagem Natural (COMPLIN) – e-mail: Este endereço de email está sendo protegido de spambots. Você precisa do JavaScript ativado para vê-lo.