De acordo com as melhores estimativas, ao norte de 7.000 línguas são faladas globalmente hoje. Em torno de Cerca de 400 idiomas tem mais de um milhão de falantes. Considerando que algumas línguas, notavelmente o inglês, parecem dominar digitalmente, há, na verdade, uma tremenda necessidade de ferramentas que possam funcionar em diferentes línguas e realizar diversas tarefas.
A inteligência artificial e o processamento de linguagem natural, um ramo da ciência da computação, têm trabalhado por décadas para desenvolver ferramentas que podem fazer exatamente isso. Nos últimos anos, inúmeras ferramentas surgiram com base em modelos multilíngues para processamento de linguagem natural (NLP). Esses modelos servem como Rosetta Stone para a era da informação, permitindo que os computadores se movam perfeitamente entre os idiomas. Eles não apenas fornecem tradução, mas também oferecem suporte a uma variedade de aplicativos, como análises de sentimento e conteúdo.
A PNL multilíngue, portanto, tem um papel vital a desempenhar no futuro. Ela pode ser usada para tradução automática ou para analisar postagens de mídia social em diferentes idiomas para determinar o sentimento, o que pode ser usado para informar estratégias de marketing ou atendimento ao cliente. A PNL multilíngue também pode sustentar recomendações de conteúdo em serviços de streaming ou disponibilizar o atendimento ao cliente em vários idiomas. Ela pode potencializar a análise de conteúdo de notícias ou permitir a tradução de registros de saúde em escala. Em suma, muitas tarefas que podem ter parecido impossíveis em algum momento — traduzir os registros de saúde de um hospital francês para o inglês, por exemplo — são possíveis com a PNL multilíngue.
Alguns também veem a ascensão do NLP multilíngue como uma força para a democratização de dados, tornando conteúdo e serviços que antes estavam disponíveis em apenas alguns idiomas acessíveis a todos. E o NLP multilíngue continua a se desenvolver, até mesmo incorporando dados não textuais.
Do homem e da máquina: Avanços recentes em arquiteturas de modelos multilíngues
O processamento de linguagem natural tem raízes profundas. O matemático e cientista da computação inglês Alan Turing descreveu o potencial dos computadores para gerar linguagem natural em seu ensaio seminal de 1950 “Máquinas de Computação e Inteligência.” A PNL desenvolveu-se de forma constante nas décadas seguintes, e a PNL multilíngue começou a desenvolver-se rapidamente nos anos 2000. No entanto, alguns dos avanços mais significativos em arquiteturas de modelos multilíngues ocorreram na última década.
Alguns nomes desses modelos são familiares para quase qualquer pessoa que já tenha se envolvido com tradução. ProfundoLpor exemplo, é propriedade da DeepL SE, sediada em Colônia, Alemanha, e conta com seu próprio algoritmo emparelhado com redes neurais convolucionais para oferecer tradução entre 33 línguas e dialetos. Lançado pela primeira vez em 2017, este é um exemplo bem conhecido de PNL multilíngue.
Claro, também há Bate-papoGPTlançado pela OpenAI, sediada em São Francisco, e baseado em seu modelo fundamental Generative Pre-trained Transformer 3.5, que mais tarde foi atualizado para a versão 4. O GPT 3.5 e 4 estão entre os maiores modelos de linguagem disponíveis, treinados em grandes conjuntos de dados, o que lhes permite pesquisar grandes quantidades de dados de texto, capturar padrões complexos na linguagem e gerar texto de alta qualidade.

Este NLP multilíngue foi adotado em massa para tradução de idiomas, análise de sentimentos e muitos outros propósitos. GPT 3.5 e GPT 4 foram disponibilizados por meio de uma API. Em 2018, pesquisadores do Google introduziram um modelo de linguagem chamado Bidirectional Encoder Representations from Transformers ou (BERT). O modelo incluiu uma arquitetura de codificador transformador e é usado pela empresa para dar mais sentido às pesquisas em sua plataforma, bem como para retornar informações mais relevantes em consultas. O modelo é treinado por meio de predição de token mascarado e predição de próxima frase.
Vários modelos relacionados inovaram no modelo BERT, como Robertoque modifica hiperparâmetros, remove o objetivo de pré-treinamento da próxima frase e permite o treinamento com minilotes maiores.
Para não ficar para trás, a IA do Facebook publicou um modelo chamado XLM-R em 2019no qual treinou o RoBERTa mencionado anteriormente em um conjunto de dados multilíngues composto por cerca de cem idiomas de conjuntos de dados do CommonCrawl.
Os cientistas que descreveram a ferramenta notaram sua capacidade de ter um bom desempenho em idiomas com conjuntos de dados menores, como Swahili e Urdu, ambos com dezenas de milhões de falantes. Eles também notaram seu desempenho em compreensão multilíngue, onde um modelo é treinado em um idioma e então usado com outro sem precisar de mais dados de treinamento.
Desafios contínuos e soluções propostas
Embora o NLP multilíngue tenha se desenvolvido em um ritmo alucinante nos últimos anos, ele tem que lidar com vários obstáculos. Um deles é simplesmente a diversidade linguística.
Criar tais modelos não é apenas fornecer traduções perfeitas. Os idiomas podem variar regionalmente ou depender mais do contexto, e a gíria também pode mudar. Isso significa que os modelos de PNL devem ser continuamente melhorados para serem relevantes.
Além disso, algumas línguas simplesmente não são tão bem representadas em termos de comentários digitais, e com esses conjuntos de dados, é mais fácil treinar um modelo. Comunidades menores que usam alfabetos não latinos, por exemplo, são particularmente deixadas de fora.
Um terceiro e bastante intrigante desafio envolve a troca de código, onde os membros da comunidade podem alternar entre idiomas. Pense em um poeta inglês que de repente cita algo extensivamente em francês ou um escritor japonês que apimenta sua prosa com referências em inglês. Se um modelo reconhece o idioma como japonês, como ele gerencia esses segmentos em inglês no texto?
Também há problemas em torno do acesso a recursos e viés. Dado o recurso computacional necessário para atingir NLPs multilíngues, somente as empresas mais poderosas do mundo conseguirão reunir os recursos para criá-los? Ou há uma maneira de torná-los mais acessíveis a pesquisadores e organizações? E se os conjuntos de dados favorecem línguas ou comunidades maiores, como alguém pode garantir que falantes de línguas menores sejam bem representados?
Por fim, há também a questão onipresente de dados ruins. Os pesquisadores têm que argumentar que seus dados de origem para alguns idiomas podem não ser precisos, levando a uma saída distorcida.

Soluções em todos os níveis giram em torno de investir mais tempo em pesquisa e cooperação. Pesquisadores devem trabalhar para obter melhores dados de línguas sub-representadas enquanto melhoram seus modelos. Alguns já empregaram abordagens de aprendizado zero-shot e few-shot para lidar com situações em que há poucos dados disponíveis para uma língua.
Para reduzir o viés, eles também estão trabalhando para criar conjuntos de dados de treinamento diversos e desenvolver métricas para garantir a imparcialidade. Os desenvolvedores também estão cientes de que o conteúdo em um idioma pode ser ofensivo ou inapropriado se mal renderizado em outro e estão abordando o problema.
Em termos de acessibilidade, modelos de menor escala surgiram para abordar a questão dos recursos. Alguns desses modelos menores incluem Orca 2 da Microsoft e Phi 2EleutherAI’s GPT-J e GPT-Neoe T5 Small, uma versão simplificada do Text-to-Text Transfer Transformer (T5) do Google.
O futuro da PNL multilíngue
Assim como os desenvolvedores buscam soluções para os desafios enfrentados pelos modelos da geração atual, a inovação está em andamento e está mudando completamente o que esses modelos podem fazer.
O NLP multimodal multilíngue fará exatamente isso processando outros tipos de dados, como imagens ou outros dados audiovisuais, junto com texto. Ele poderia potencialmente analisar o conteúdo para expressões faciais ou tom, por exemplo, o que poderia ser usado para melhorar a tradução automática ou análise de sentimentos, adicionando novas dimensões de dados ao pipeline de processamento.
A inovação também está em andamento para melhorar os assistentes de voz existentes e os chatbots multilíngues. O assistente de voz Siri da Apple atualmente pode responder a consultas em cerca de 25 línguas e dialetosenquanto a Alexa da Amazon é disponível em nove. Ao usar a PNL multilíngue, esses assistentes de voz poderiam ser disponibilizados a milhões de pessoas no mundo todo.
Da mesma forma, chatbots e agentes virtuais também podem ser melhorados, não apenas em termos de conteúdo, mas também tornando suas respostas mais contextuais e específicas à consulta da pessoa, o que, por sua vez, melhorará a experiência do usuário.
À medida que a tecnologia evolui, o Multilingual NLP se expandirá além da tradução, análise de sentimentos e outros usos atuais para aplicações de escala mais ampla. Por exemplo, ferramentas de educação online podem estar mais prontamente disponíveis em vários idiomas.
As empresas podem melhorar suas pesquisas, atingir mais clientes e atender melhor os mercados locais do que atualmente, tudo com a ajuda da PNL Multilíngue. Em suma, ainda é cedo para a PNL Multilíngue. Dada a velocidade dos desenvolvimentos, o futuro chegará em breve.
Crédito da imagem em destaque: Freepik