CEO antrópico Dario Amodei publicado Um ensaio na quinta -feira destacando o entendimento limitado do funcionamento interno dos principais modelos de IA e estabeleceu uma meta para detectar com segurança a maioria dos problemas do modelo de IA até 2027.
Amodei reconhece o desafio à frente, afirmando que, embora o antropic tenha feito os primeiros avanços ao rastrear como os modelos chegam às suas respostas, é necessária mais pesquisas para decodificar esses sistemas à medida que se tornam mais poderosos. “Estou muito preocupado em implantar esses sistemas sem melhor lidar com a interpretabilidade”, escreveu Amodei, enfatizando seu papel central na economia, tecnologia e segurança nacional.
Antrópica é pioneira na interpretabilidade mecanicista, com o objetivo de entender por que os modelos de IA tomam certas decisões. Apesar das rápidas melhorias de desempenho, o setor ainda tem uma visão limitada de como esses sistemas chegam às decisões. Por exemplo, os novos modelos de IA de raciocínio do OpenAI, O3 e O4-minitenha um desempenho melhor em algumas tarefas, mas alucina mais do que outros modelos, com a empresa sem saber o porquê.
A Amodei observa que os pesquisadores da IA melhoraram a inteligência do modelo, mas não entendem completamente por que essas melhorias funcionam. O co-fundador antrópico Chris Olah diz que os modelos de IA são “crescidos mais do que são construídos”. Amodei alerta que alcançar a AGI sem entender como os modelos funcionam pode ser perigoso e acredita que estamos mais adiante, de entender completamente os modelos de IA do que alcançar a AGI, potencialmente até 2026 ou 2027.
O objetivo antrópico visa realizar “varreduras cerebrais” ou “ressonância magnética” dos modelos de IA de última geração para identificar problemas, incluindo tendências de mentir ou buscar poder. Isso pode levar de cinco a 10 anos, mas será necessário para testar e implantar modelos futuros. A empresa fez avanços no rastreamento de caminhos de pensamento do modelo de IA através de “circuitos” e identificou um circuito que ajuda os modelos a entender os locais da cidade nos estados.
Antrópico investiu em pesquisa de interpretabilidade e recentemente fez seu primeiro investimento em uma startup trabalhando no campo. Amodei acredita explicar como os modelos de IA chegam às respostas podem apresentar uma vantagem comercial. Ele pediu ao Openai e no Google Deepmind que aumentassem seus esforços de pesquisa e pediu aos governos que imporiam regulamentos de “toque de luz” para incentivar a pesquisa de interpretabilidade.
Amodei também sugeriu que os EUA deveriam impor controles de exportação sobre chips para a China para limitar a probabilidade de uma corrida global de IA fora de controle. O Anthropic se concentrou na segurança, emitindo apoio modesto à conta de segurança da AI da Califórnia, SB 1047, que teria estabelecido padrões de relatórios de segurança para os desenvolvedores de modelos de Frontier AI.
O Antrópico está pressionando por um esforço em todo o setor para entender melhor os modelos de IA, não apenas aumentar suas capacidades. Os esforços e recomendações da empresa destacam a necessidade de uma abordagem colaborativa da segurança e interpretabilidade da IA.