21 de novembro de 2012

LÍNGUA PORTUGUESA MAL PREPARADA PARA A ERA DIGITAL - Virgílio Azevedo


A Língua Portuguesa precisa desenvolver ferramentas e aplicativos aos níveis linguísticos do texto e da fala, para seu uso nas Tecnologias da Linguagem.

O português está mal preparado para a era digital, de acordo com os resultados de um estudo internacional sobre o estado de desenvolvimento da Tecnologia da Linguagem feito a 30 línguas europeias.

O apoio da Tecnologia da Linguagem ao português é classificado como “pouco ou nenhum” na tradução automática, “fragmentário” na análise de texto e nos recursos linguísticos e orais, e “médio” no processamento da fala.

Os recursos linguísticos e orais são os recursos de base – conjuntos de dados, bases de conhecimento linguístico, etc. – necessários para a criação de ferramentas e aplicações em Tecnologias da Linguagem.

Para António Branco, o investimento em Tecnologias da Linguagem “é um fator crucial para a afirmação da nossa Língua na era digital”.

O estudo foi apresentado dia 16 de novembro numa conferência internacional na Fundação Gulbenkian, em Lisboa, onde foi lançado o Livro Branco sobre A Língua Portuguesa na Era Digital, um projeto que envolve as Faculdades de Ciências e de Letras da Universidade de Lisboa, e o Instituto Superior Técnico [da Universidade Técnica de Lisboa].

A fraca classificação da Língua Portuguesa parece um paradoxo, porque há mais de 220 milhões de falantes do português espalhados pelo mundo. A nossa língua é a terceira mais usada no Twitter e a quinta mais usada na Internet, e o Brasil é o quinto país que mais utiliza a Rede.

“Não se trata de um paradoxo, mas de realidades diferentes, porque uma coisa é falarmos de suportes, canais e meios de difusão da Língua Portuguesa a nível mundial, onde não estamos mal; outra coisa é a Tecnologia da Linguagem, que não está à vista das pessoas como a presença na Internet, mas que é um fator crucial para a afirmação da nossa Língua na era digital”, esclarece António Branco, investigador do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa.

António Branco é coordenador do projeto europeu METANET4U, que pretende contribuir para o estabelecimento de uma plataforma digital pan-europeia que disponibilize recursos e serviços relacionados com a linguagem, envolvendo bases de dados e ferramentas de software [logicial] para o processamento da fala e da linguagem.

A Tecnologia da Linguagem funciona nos bastidores, de forma invisível para o público em geral dentro de sistemas de software [logicial] sofisticados, mas é uma ajuda preciosa em tarefas diárias, como encontrar informação na Internet com um motor de busca, verificar a ortografia e a gramática com um processador de texto, ver as recomendações para um produto numa loja online [em linha], seguir as indicações verbais de um sistema de navegação, traduzir páginas da Internet com um serviço online [em linha].

Desenvolver esta tecnologia exige a recolha de muitos dados sobre a Língua Portuguesa e é um processo trabalhoso, demorado e caro. No mundo digital, dos computadores e das redes, há duas vias para a aquisição da linguagem: a abordagem estatística e a construção de sistemas baseados em regras.

Colecionar milhões de frases

No primeiro caso, os conhecimentos linguísticos são obtidos a partir de grandes coleções de exemplos concretos de textos, de milhões de frases que permitem, por exemplo, a correção ortográfica em processadores de texto ou serviços como o Google Search [Google Pesquisa] ou o Google Translate [Google Tradutor]. A vantagem da abordagem estatística é que a aprendizagem dos computadores é rápida.

No caso da construção de sistemas baseados em regras, particularmente importante na tradução automática, especialistas em linguística computacional e engenharia informática têm de codificar as regras gramaticais e compilar listas de vocabulário, o que exige muito tempo e trabalho, mas tem a vantagem de permitir controlar de forma mais detalhada o processamento da linguagem, corrigindo permanentemente os erros no software [logicial], e dar uma resposta detalhada ao utilizador.

“O sistema flexional do português é muito mais rico do que o de línguas como o inglês, em particular nos verbos, o que torna o desenvolvimento da Tecnologia da Linguagem mais difícil”, salienta António Branco.

O investigador dá um exemplo revelador: “Um verbo pode ter diferentes marcas para aspeto, tempo, modo, pessoa, número, género ou polaridade, atingindo mais de 160 formas flexionadas diferentes”.

Entretanto, no Instituto de Engenharia de Sistemas e Computadores – Investigação e Desenvolvimento (INESC-ID), em Lisboa, está a ser desenvolvido um sistema inovador para recuperar doentes que sofreram um AVC [acidente vascular cerebral] e que têm afasia, isto é, dificuldade em lembrar-se dos nomes dos objetos.

Para Isabel Trancoso, “há um mercado potencial importante” no processamento da fala para usos em várias áreas, como a da reabilitação médica.

O projeto, liderado pela investigadora Isabel Trancoso, é uma parceria entre o Laboratório de Sistemas de Língua Falada (L2F), do INESC-ID, e o Laboratório de Estudos de Linguagem, da Faculdade de Medicina da Universidade de Lisboa.

A investigadora mostra ao Expresso como vai funcionar o sistema. No monitor de um computador aparecem uma a uma as imagens, fotos e vídeos de objetos familiares, de pessoas, de músicas conhecidas.

O doente que sofreu um AVC deve falar na direção do microfone e tentar acertar no nome de cada um desses objetos, pessoas ou músicas, nome muitas vezes escondido no meio de uma frase e entre hesitações, mas o sistema de reconhecimento da fala não tem problemas e capta esses nomes, surgindo no monitor a classificação “certo” ou “errado”.

Este é um dos muitos exemplos do que é necessário desenvolver nas Tecnologias da Linguagem para que a sobrevivência da Língua Portuguesa não esteja em risco na era digital.

Isabel Trancoso, que representa o Instituto Superior Técnico no projeto europeu METANET4U, afirma que “há poucas empresas nacionais interessadas nas tecnologias desenvolvidas por centros de investigação portugueses”.

Em todo o caso, nos últimos anos tem havido mais interesse de editoras e livreiras no processamento da Língua escrita, e no processamento da fala “há um mercado potencial importante nas televisões, rádios, na área da reabilitação, nos hospitais [ditado automático dos relatórios médicos, preenchimento de formulários] e nos tribunais [transcrição das sessões e dos relatos das testemunhas]“.

Amália Mendes, investigadora do Centro de Linguística da Universidade de Lisboa (CLUL), que também participa no projeto METANET4U, reconhece por sua vez que “há pouco suporte tecnológico para a Língua Portuguesa, embora seja exagerado dizer que é uma língua em risco, porque não houve uma passagem maciça para o inglês na Internet e nas redes sociais dos utilizadores que falam português, o que significa que há multilinguismo”.

A investigadora sublinha que “tentar disponibilizar o máximo de recursos para o português é o objetivo do CLUL no projeto METANET4U”, e explica o que falta ao português em termos de desenvolvimento da Tecnologia da Linguagem para chegar ao nível do espanhol ou do francês.

“Ao nível da palavra [nível morfosintático], que é o mais básico, já há recursos e ferramentas, mas, ao nível da análise sintática da língua [estrutura das frases], o trabalho desenvolvido é ainda insuficiente.”

E quanto mais nos afastamos do nível básico, “mais afastados estamos do desejável no apoio tecnológico da Língua Portuguesa”, explica Amália Mendes.

É o que acontece aos níveis semântico (significado das palavras) e do discurso (relações discursivas das frases de um texto), que são muito mais complexos. Saindo do texto e entrando na tecnologia da fala, “há problemas ainda acrescidos, embora seja uma área claramente em desenvolvimento, por causa das aplicações comerciais”. 

* AZEVEDO, Virgílio. Língua Portuguesa mal preparada para a era digital. Extraído do diário Expresso (Lisboa, Portugal). Publicado em: 16 nov. 2012.

Livro Branco A Língua Portuguesa na Era Digital lançado na Gulbenkian 

Do Camões – Instituto da
Cooperação  e da Língua
Ocorreu no dia 16 de novembro de 2012, na sede da Fundação Calouste Gulbenkian, o lançamento do Livro Branco A Língua Portuguesa na Era Digital durante uma oficina subordinada ao mesmo tema.

O livro procura disponibilizar uma análise do estado de desenvolvimento da Tecnologia da Linguagem para a Língua Portuguesa, assim como das perspectivas que se oferecem e das ações necessárias para a consolidação do português como Língua de comunicação internacional para a era digital.

A obra relacionada à Língua Portuguesa é um volume da coleção de Livros Brancos sobre “As Línguas na União Europeia da Sociedade da Informação”.

Esta coleção apresenta um estudo circunstanciado sobre o estado atual de 30 línguas europeias em termos de Tecnologias da Linguagem e como estão a ser tecnologicamente equipadas para fazer face ao choque digital, salientando os riscos e as oportunidades mais urgentes que cada uma destas línguas enfrenta. No total, mais de 200 autores e colaboradores ajudaram a preparar esta coleção, que se encontra publicada na editora internacional Springer Verlag.

Esta coleção abrange todas as línguas oficiais da União Europeia e dos países-membros e diversas outras línguas faladas na Europa: alemão, basco, búlgaro, catalão, checo, croata, dinamarquês, eslovaco, esloveno, espanhol, estoniano, finlandês, francês, galego, grego, holandês, húngaro, inglês, irlandês, islandês, italiano, letão, lituano, maltês, norueguês, polaco, português, romeno, sérvio e sueco.

Livro Branco “A Língua Portuguesa na Era Digital” lançado na Gulbenkian. Extraído do Camões – Instituto da Cooperação e da Língua. Lisboa, Portugal.

Leia também:

Extraído do sítio Ventos da Lusofonia

Nenhum comentário:

Postar um comentário

Os comentários serão moderados. Não serão mais publicados os de anônimos.