Os grandes modelos de idiomas (LLMs) são comemorados por suas capacidades multilíngues, mas como eles realmente processam idiomas não ingleses? Um estudo recente chamado “Os LLMs multilíngues pensam em inglês?Por Lisa Schut, Yarin Gal e Sebastian Farquhar, da Universidade de Oxford e Google Deepmind, sugerem que os LLMs podem ser mais centrados no inglês do que se pensava anteriormente. Suas descobertas revelam que, independentemente da linguagem de entrada ou saída, esses modelos tendem a raciocinar em um espaço de representação interna mais próximo do inglês antes de traduzir seus pensamentos para o idioma de destino.
Um processo de pensamento centrado em inglês
Os LLMs são treinados em vastas quantidades de dados multilíngues, mas a linguagem dominante em seu corpus de treinamento geralmente determina como eles estruturam as informações internamente. O estudo analisou vários modelos de código aberto, incluindo LLAMA-3.1-70B, MIXTRAL-8X22B, GEMMA-27B e AYA-23-35Bpara investigar se esses sistemas processam o significado de maneira agnóstica de idioma ou se não adotam um espaço de representação centrado em inglês.
Usando uma técnica chamada de Lente de logitos pesquisadores decodificaram as representações latentes desses modelos e descobriram um padrão impressionante: ao gerar texto em Languages não ingleses, o primeiro mapa LLMS palavras semanticamente significativas (como substantivos e verbos) para seus equivalentes em inglês antes de convertê -los no idioma de destino. Esse fenômeno foi observado em vários idiomas, incluindo francês, alemão, holandês e mandarim.
Por exemplo, quando o modelo recebeu a frase francesa “Le Bateau Naviguait em Douceur Sur l’eau” (“O barco navegou suavemente na água”), as representações internas mostraram que palavras como água e barco foram mapeados primeiro para seus significados em inglês antes de serem traduzidos de volta para o francês. No entanto, elementos gramaticais como preposições e determinantes permaneceram no idioma original, sugerindo que apenas palavras carregadas semanticamente passam por esse processamento centrado em inglês.
AI agora lida com simulações moleculares: graças ao mdcrow
O experimento de vetor de direção
Outro experimento importante no estudo envolvido direção de ativaçãouma técnica usada para manipular as respostas do LLM, cutucando -as para conceitos específicos. Os pesquisadores descobriram que os vetores de direção-representações matemáticas que guiam a tomada de decisão do modelo-eram significativamente mais eficazes quando calculadas em inglês do que no idioma de entrada ou saída. Isso suporta ainda a idéia de que o principal raciocínio do modelo ocorre em um espaço alinhado em inglês.
Por exemplo, quando um LLM foi solicitado a escrever uma frase sobre animais em alemão, o modelo respondeu de maneira mais consistente quando o vetor de direção foi derivado da palavra em inglês animal em vez de seu colega alemão Nível. Isso sugere que, mesmo quando os modelos produzem texto fluente não inglês, sua lógica subjacente permanece ligada às representações inglesas.
A natureza centrada no inglês do LLMS tem vantagens e desvantagens. Por um lado, permite que esses modelos tenham um bom desempenho em vários idiomas, apesar de serem treinados predominantemente em dados em inglês. Por outro lado, ele apresenta vieses e limitações:
- Fluência mais baixa em idiomas não ingleses: Os modelos treinados com uma estrutura orientada para o inglês tendem a produzir frases não naturais ao gerar texto em outros idiomas. Isso pode fazer com que sua saída pareça preenchida, principalmente em idiomas com sintaxe e gramática significativamente diferentes.
- Viés cultural e linguístico: Como a estrutura interna favorece o inglês, certos idiomas podem ser sub -representados, levando a desvantagens injustas no desempenho. Pesquisas anteriores já destacaram Vieses centrados no oeste Nos modelos de IA, e este estudo adiciona outra camada ao problema.
- Artefatos de tradução: Como os modelos traduzem seus pensamentos internos do inglês, eles podem gerar frases ou erros desajeitados Ao trabalhar com idiomas que não possuem equivalentes diretos em inglês para certas palavras ou expressões.
Todos os LLMs exibem esse comportamento?
Curiosamente, nem todos os modelos exibiram o mesmo grau de processamento centrado em inglês. Aya-23-35b, um modelo treinado em 23 idiomas, mostrou a menor quantidade de roteamento em inglêsenquanto Gemma-27b, treinado principalmente em inglês, mostrou o máximo. Isso sugere que o grau de proficiência multilíngue influencia diretamente se um modelo depende de representações em inglês.
Adicionalmente, Modelos menores exibiram uma tendência maior de inadimplência para o inglês, Provavelmente devido à sua capacidade limitada de armazenar incorporações multilíngues com eficiência. Modelos maiores, com mais parâmetros e dados de treinamento, parecem ter uma compreensão um pouco melhor da semântica multilíngue, embora o viés inglês ainda permaneça.
Os LLMs podem realmente pensar multilíngues?
As descobertas do estudo desafiam a suposição de que os LLMs operam em um verdadeiramente Caminho agnóstico da linguagem. Em vez disso, eles sugerem que a IA multilíngue é ainda fundamentalmente moldado pelo idioma dominante em seu corpus de treinamento. Isso levanta questões importantes para desenvolvedores e pesquisadores de IA:
- Os conjuntos de dados de treinamento devem ser reestruturados para promover representações multilíngues mais equilibradas?
- Como podemos mitigar o viés inglês para melhorar a fluência e a justiça em diferentes idiomas?
- Existem arquiteturas alternativas que poderiam codificar melhor representações independentes da linguagem?
Abordando o Viés centrado em inglês no LLMS, será crucial para o desenvolvimento verdadeiramente Multilíngue, culturalmente ciente sistemas. Os pesquisadores sugerem melhorias em potencial, como:
- Treinamento sobre dados mais diversos: A incorporação de uma gama mais ampla de idiomas durante a pré -treinamento pode ajudar os LLMs a desenvolver um espaço de representação mais equilibrado.
- Melhorando a direção cruzada: O desenvolvimento de melhores métodos para a direção do LLMS em idiomas não ingleses pode melhorar seu desempenho em vários contextos linguísticos.
- Explorando novas arquiteturas: Futuros modelos de IA podem incorporar mecanismos para Representações de linguagem descentralizadasgarantir que os processos de raciocínio e tomada de decisão sejam Verdadeiramente agnóstico da linguagem.
Por enquanto, uma coisa é clara: embora a IA multilíngue tenha feito avanços impressionantes, a maneira como “pensa” ainda está profundamente ligada ao inglês. Compreender esse viés é o primeiro passo para criar sistemas de IA mais justos e eficazes para usuários globais.
Crédito da imagem em destaque: Kerem Gülen/ideograma