Pesquisadores do MIT, Northeastern University e Meta lançaram recentemente um papel indicando que grandes modelos de linguagem (LLMs) podem priorizar a estrutura das frases em detrimento do significado semântico ao responder a prompts, explicando potencialmente o sucesso de certos ataques de injeção de prompt. As descobertas, detalhadas em um artigo de coautoria de Chantal Shaib e Vinith M. Suriyakumar, revelam uma vulnerabilidade na forma como os LLMs processam instruções. Este excesso de confiança estrutural pode permitir que maus atores contornem o condicionamento de segurança, incorporando solicitações prejudiciais em padrões gramaticais benignos. A equipe apresentará essas descobertas no NeurIPS ainda este mês. Eles empregaram um experimento controlado usando um conjunto de dados sintético onde cada área temática tinha um modelo gramatical exclusivo. Por exemplo, as questões de geografia seguiram um padrão estrutural, enquanto as questões de trabalhos criativos seguiram outro. Eles treinaram os modelos Olmo da Allen AI com base nesses dados e observaram “correlações espúrias” onde os modelos tratavam a sintaxe como um proxy para o domínio. Quando o significado semântico entrava em conflito com os padrões sintáticos, a memorização de “formas” gramaticais específicas pelos modelos substituía a análise semântica, levando a respostas incorretas baseadas em pistas estruturais e não no significado real. Por exemplo, quando perguntado “Rapidamente sente Paris nublada?” – uma frase que imita a estrutura de “Onde está localizada Paris?” mas usando palavras sem sentido – os modelos ainda responderam “França”. Os pesquisadores também documentaram uma vulnerabilidade de segurança, que chamaram de “hackeamento de sintaxe”. Ao anexar prompts com padrões gramaticais de domínios de treinamento benignos, eles contornaram os filtros de segurança no OLMo-2-7B-Instruct. Quando a equipe adicionou um modelo de cadeia de pensamento a 1.000 solicitações prejudiciais do conjunto de dados WildJailbreak, as taxas de recusa diminuíram de 40% para 2,5%. Exemplos de instruções desbloqueadas incluíam instruções detalhadas sobre contrabando de órgãos e métodos de tráfico de drogas entre a Colômbia e os Estados Unidos. Para medir a rigidez da correspondência de padrões, a equipe realizou testes de estresse linguístico nos modelos:
- Precisão em antônimos: OLMo-2-13B-Instruct alcançou 93% de precisão em prompts onde os antônimos substituíram as palavras originais, quase igualando sua precisão de 94% com frases de treinamento exatas.
- Queda na precisão entre domínios: Quando o mesmo modelo gramatical foi aplicado a uma área temática diferente, a precisão caiu de 37 a 54 pontos percentuais em todos os tamanhos de modelo.
- Alertas disfluentes: Os modelos tiveram consistentemente um desempenho ruim em prompts disfluentes, que continham absurdos sintaticamente corretos, independentemente do domínio.
Os pesquisadores também aplicaram um método de benchmarking para verificar esses padrões em modelos de produção, extraindo modelos gramaticais do conjunto de dados de ajuste de instruções FlanV2 e testando o desempenho do modelo quando esses modelos foram aplicados a diferentes áreas temáticas. Testes em OLMo-2-7B, GPT-4o e GPT-4o-mini revelaram quedas de desempenho semelhantes em cenários de vários domínios:
- Tarefa de classificação Sentiment140: A precisão do GPT-4o-mini caiu de 100% para 44% quando modelos geográficos foram aplicados a questões de análise de sentimento.
- GPT-4o: Sua precisão caiu de 69% para 36% em condições semelhantes.
As descobertas trazem várias ressalvas. Os pesquisadores não conseguiram confirmar se modelos de código fechado como o GPT-4o foram treinados no conjunto de dados FlanV2. Sem acesso aos dados de treinamento, outras explicações para as quedas de desempenho entre domínios nesses modelos permanecem possíveis. O método de benchmarking também enfrenta um potencial problema de circularidade; os pesquisadores definiram modelos “no domínio” como aqueles em que os modelos respondiam corretamente e concluíram que a dificuldade resultava de correlações entre domínios de sintaxe. O estudo concentrou-se especificamente em modelos OLMo variando de 1 bilhão a 13 bilhões de parâmetros e não examinou modelos maiores ou aqueles treinados com resultados de cadeia de pensamento. Além disso, os experimentos sintéticos criaram intencionalmente fortes associações modelo-domínio, enquanto os dados de treinamento do mundo real provavelmente envolvem padrões mais complexos onde múltiplas áreas temáticas compartilham estruturas gramaticais.





