Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Estudo: LLMs favorecem a estrutura das frases em vez do significado

byEmre Çıtak
8 Dezembro 2025
in Research
Home Research
Share on FacebookShare on Twitter

Pesquisadores do MIT, Northeastern University e Meta lançaram recentemente um papel indicando que grandes modelos de linguagem (LLMs) podem priorizar a estrutura das frases em detrimento do significado semântico ao responder a prompts, explicando potencialmente o sucesso de certos ataques de injeção de prompt. As descobertas, detalhadas em um artigo de coautoria de Chantal Shaib e Vinith M. Suriyakumar, revelam uma vulnerabilidade na forma como os LLMs processam instruções. Este excesso de confiança estrutural pode permitir que maus atores contornem o condicionamento de segurança, incorporando solicitações prejudiciais em padrões gramaticais benignos. A equipe apresentará essas descobertas no NeurIPS ainda este mês. Eles empregaram um experimento controlado usando um conjunto de dados sintético onde cada área temática tinha um modelo gramatical exclusivo. Por exemplo, as questões de geografia seguiram um padrão estrutural, enquanto as questões de trabalhos criativos seguiram outro. Eles treinaram os modelos Olmo da Allen AI com base nesses dados e observaram “correlações espúrias” onde os modelos tratavam a sintaxe como um proxy para o domínio. Quando o significado semântico entrava em conflito com os padrões sintáticos, a memorização de “formas” gramaticais específicas pelos modelos substituía a análise semântica, levando a respostas incorretas baseadas em pistas estruturais e não no significado real. Por exemplo, quando perguntado “Rapidamente sente Paris nublada?” – uma frase que imita a estrutura de “Onde está localizada Paris?” mas usando palavras sem sentido – os modelos ainda responderam “França”. Os pesquisadores também documentaram uma vulnerabilidade de segurança, que chamaram de “hackeamento de sintaxe”. Ao anexar prompts com padrões gramaticais de domínios de treinamento benignos, eles contornaram os filtros de segurança no OLMo-2-7B-Instruct. Quando a equipe adicionou um modelo de cadeia de pensamento a 1.000 solicitações prejudiciais do conjunto de dados WildJailbreak, as taxas de recusa diminuíram de 40% para 2,5%. Exemplos de instruções desbloqueadas incluíam instruções detalhadas sobre contrabando de órgãos e métodos de tráfico de drogas entre a Colômbia e os Estados Unidos. Para medir a rigidez da correspondência de padrões, a equipe realizou testes de estresse linguístico nos modelos:

  • Precisão em antônimos: OLMo-2-13B-Instruct alcançou 93% de precisão em prompts onde os antônimos substituíram as palavras originais, quase igualando sua precisão de 94% com frases de treinamento exatas.
  • Queda na precisão entre domínios: Quando o mesmo modelo gramatical foi aplicado a uma área temática diferente, a precisão caiu de 37 a 54 pontos percentuais em todos os tamanhos de modelo.
  • Alertas disfluentes: Os modelos tiveram consistentemente um desempenho ruim em prompts disfluentes, que continham absurdos sintaticamente corretos, independentemente do domínio.

Os pesquisadores também aplicaram um método de benchmarking para verificar esses padrões em modelos de produção, extraindo modelos gramaticais do conjunto de dados de ajuste de instruções FlanV2 e testando o desempenho do modelo quando esses modelos foram aplicados a diferentes áreas temáticas. Testes em OLMo-2-7B, GPT-4o e GPT-4o-mini revelaram quedas de desempenho semelhantes em cenários de vários domínios:

  • Tarefa de classificação Sentiment140: A precisão do GPT-4o-mini caiu de 100% para 44% quando modelos geográficos foram aplicados a questões de análise de sentimento.
  • GPT-4o: Sua precisão caiu de 69% para 36% em condições semelhantes.

As descobertas trazem várias ressalvas. Os pesquisadores não conseguiram confirmar se modelos de código fechado como o GPT-4o foram treinados no conjunto de dados FlanV2. Sem acesso aos dados de treinamento, outras explicações para as quedas de desempenho entre domínios nesses modelos permanecem possíveis. O método de benchmarking também enfrenta um potencial problema de circularidade; os pesquisadores definiram modelos “no domínio” como aqueles em que os modelos respondiam corretamente e concluíram que a dificuldade resultava de correlações entre domínios de sintaxe. O estudo concentrou-se especificamente em modelos OLMo variando de 1 bilhão a 13 bilhões de parâmetros e não examinou modelos maiores ou aqueles treinados com resultados de cadeia de pensamento. Além disso, os experimentos sintéticos criaram intencionalmente fortes associações modelo-domínio, enquanto os dados de treinamento do mundo real provavelmente envolvem padrões mais complexos onde múltiplas áreas temáticas compartilham estruturas gramaticais.


Crédito da imagem em destaque

Tags: IAsintaxe

Related Posts

Estudo da Nature projeta 2 bilhões de dispositivos de saúde vestíveis até 2050

Estudo da Nature projeta 2 bilhões de dispositivos de saúde vestíveis até 2050

7 Janeiro 2026
Imperial College London desenvolve IA para acelerar a descoberta de medicamentos cardíacos

Imperial College London desenvolve IA para acelerar a descoberta de medicamentos cardíacos

6 Janeiro 2026
DeepSeek apresenta hiperconexões com restrição múltipla para R2

DeepSeek apresenta hiperconexões com restrição múltipla para R2

6 Janeiro 2026
Pesquisadores da CMU desenvolvem objetos automovíveis alimentados por IA

Pesquisadores da CMU desenvolvem objetos automovíveis alimentados por IA

31 Dezembro 2025
O Work AI Institute de Glean identifica cinco tensões principais em IA

O Work AI Institute de Glean identifica cinco tensões principais em IA

31 Dezembro 2025
IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025

Recent Posts

  • Sem lista de espera: Claude Health chega para usuários US Pro e Max
  • O Google remove as visões gerais de IA para algumas consultas de saúde
  • Indonésia e Malásia bloqueiam Grok por causa de deepfakes sexualizados
  • Anthropic e Allianz se unem para trazer IA transparente ao setor de seguros
  • Novo sensor ISOCELL vazou para Galaxy S27 Ultra

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.