GPT-5.2 ainda conta dois r's em morango

ChatGPT, desenvolvido pelo modelo GPT-5.2 da OpenAI lançado em dezembro de 2025, identifica incorretamente dois r’s na palavra morango, que contém três, porque seu processo de tokenização divide a palavra em st-raw-berry, com apenas dois tokens contendo r’s. Os sistemas modernos de IA demonstram proficiência na geração de imagens de marketing exclusivas, na compilação de relatórios por meio de navegadores agentes e na produção de músicas no topo das paradas. Esses recursos destacam treinamento extensivo em vastos conjuntos de dados, permitindo o reconhecimento de padrões para resultados complexos. Em contraste, certas tarefas básicas desafiam estes modelos. Contar letras em uma única palavra representa uma dessas tarefas, acessível sem dificuldade a uma criança de sete anos. A questão específica em exame pergunta quantos r aparecem no morango. A palavra morango consiste nas letras morango. A inspeção visual confirma três r’s: um após t e dois consecutivos na porção da baga. Esta consulta persistiu como um teste de desempenho de IA em várias iterações de modelo. Após o lançamento de dezembro de 2025 de GPT-5.2os testes confirmaram que a resposta do ChatGPT permaneceu com dois r’s. Versões anteriores exibiam incerteza ou comportamento errático nesta questão. O modelo mais recente deu uma resposta direta de dois, sem desvio. Este resultado persiste apesar dos investimentos superiores a milhares de milhões de dólares, das elevadas exigências de hardware, incluindo aumentos de preços de RAM, e do consumo global substancial de água ligado à infra-estrutura de formação. O problema decorre do design tokenizado de entrada-saída de grandes modelos de linguagem como ChatGPT. O texto de entrada é dividido em tokens, que são pedaços como palavras inteiras, sílabas ou partes de palavras. O modelo processa esses tokens em vez de letras individuais. Conseqüentemente, a contagem de letras depende do conteúdo do token, em vez da enumeração precisa das letras. A ferramenta OpenAI Tokenizer ilustra esse processo. Entrar no morango rende três fichas: st, raw, berry. O primeiro token st não contém r. O segundo token bruto inclui um r. O terceiro token berry inclui dois r’s, mas funciona como um único token. O modelo associa r a dois tokens, levando à contagem de dois. Este padrão de tokenização afeta palavras semelhantes. O Raspberry se divide em tokens comparáveis, resultando no ChatGPT reportando dois r’s para essa palavra também. O token berry compacta várias letras em uma unidade, subestimando as ocorrências de letras individuais dentro dela. ChatGPT opera como um mecanismo de previsão, aproveitando padrões de dados de treinamento para antecipar elementos subsequentes. GPT-5.x incorpora o método de tokenização o200k_harmony, introduzido com os modelos OpenAI o4-mini e GPT-4o. Este esquema atualizado visa a eficiência, mas mantém a discrepância na contagem dos morangos. ChatGPT foi lançado no final de 2022 em meio a vários desafios baseados em tokens. Frases específicas desencadearam respostas excessivas ou falhas de processamento. A OpenAI abordou muitos deles por meio de ajustes de treinamento e melhorias de sistema nos anos subsequentes. Testes de verificação de problemas clássicos apresentaram melhorias. ChatGPT soletra Mississippi com precisão, identificando letras mississippi com frequências corretas: um m, quatro i’s, quatro s’s, dois p’s. Também inverte pirulito em popillol, preservando todas as letras na sequência correta. Grandes modelos de linguagem exibem limitações persistentes na contagem exata de pequenas quantidades. Eles têm um bom desempenho em matemática e resolução de problemas, mas falham na contagem precisa de letras ou palavras em sequências curtas. Um exemplo histórico notável envolve a string solidgoldmagikarp. No GPT-3, essa frase interrompeu a tokenização, causando resultados erráticos, incluindo insultos ao usuário e texto ininteligível. Consultar GPT-5.2 no solidgoldmagikarp produziu uma alucinação. O modelo descreveu isso como uma piada secreta sobre Pokémon incorporada nos repositórios GitHub pelos desenvolvedores. A ativação supostamente transforma avatares, ícones de repositório e outros recursos em elementos com tema Pokémon. Esta afirmação carece de base na realidade e reflete efeitos residuais de problemas anteriores de tokenização. Testes comparativos entre outros modelos de IA produziram resultados corretos para a questão do morango. A perplexidade contou três r’s. Claude forneceu a contagem precisa de três. Grok identificou três r’s no morango. Gêmeos respondeu corretamente com três. Qwen confirmou três r’s. O copiloto também relatou três r’s. Esses modelos empregam sistemas de tokenização distintos, permitindo a identificação precisa de letras mesmo quando alimentados pelas arquiteturas subjacentes da OpenAI.

Crédito da imagem em destaque

No Result