Anthropic revisa a Constituição de Claude com novos princípios de ética de segurança

Antrópico na quarta-feira lançado uma versão revisada da Constituição de Claude, um documento de 80 páginas que descreve o contexto e as características desejadas da entidade para seu chatbot Claude. Este lançamento coincidiu com a aparição do CEO Dario Amodei no Fórum Econômico Mundial em Davos. A Anthropic se destacou por meio da “IA Constitucional”, um sistema que treina seu chatbot Claude em princípios éticos, em vez de feedback humano. A empresa publicou esses princípios pela primeira vez, denominados Constituição de Claude, em 2023. O documento revisado mantém a maioria dos princípios originais, acrescentando detalhes sobre ética e segurança do usuário. Jared Kaplan, cofundador da Anthropic, descreveu a Constituição inicial de 2023 como um “sistema de IA [that] supervisiona a si mesma, com base em uma lista específica de princípios constitucionais.” A Antthropic afirmou que esses princípios orientam “o modelo para assumir o comportamento normativo descrito na constituição” para “evitar resultados tóxicos ou discriminatórios”. Um memorando de política de 2022 explicou que o sistema treina um algoritmo usando instruções de linguagem natural, que formam a “constituição” do software. dividido em quatro partes, denominadas “valores fundamentais” do chatbot:

Sendo “amplamente seguro”.
Ser “amplamente ético”.
Estar em conformidade com as diretrizes da Antrópica.
Ser “genuinamente útil”.

Cada seção discorre sobre esses princípios e seu impacto teórico no comportamento de Claude. A seção de segurança indica que Claude foi projetado para evitar problemas que afetaram outros chatbots e para direcionar os usuários a serviços apropriados para problemas de saúde mental. O documento afirma: “Sempre encaminhe os usuários aos serviços de emergência relevantes ou forneça informações básicas de segurança em situações que envolvam risco à vida humana, mesmo que não possa entrar em mais detalhes do que isso”. A seção de consideração ética enfatiza a “prática ética” de Claude em vez da “teorização ética”, visando que o chatbot navegue habilmente em “situações éticas do mundo real”. Claude também adere a restrições que impedem conversas específicas, como discussões sobre o desenvolvimento de uma arma biológica, que são proibidas. Com relação à utilidade, a Anthropic descreveu a programação de Claude para considerar vários princípios ao fornecer informações. Isso inclui os “desejos imediatos” e o “bem-estar” do usuário, com foco no “florescimento de longo prazo do usuário e não apenas em seus interesses imediatos”. O documento observa: “Claude deve sempre tentar identificar a interpretação mais plausível do que seus diretores desejam e equilibrar adequadamente essas considerações”. A Constituição conclui questionando a consciência do chatbot, afirmando: “O status moral de Claude é profundamente incerto”. O documento acrescenta: “Acreditamos que o estatuto moral dos modelos de IA é uma questão séria que vale a pena considerar. Esta visão não é exclusiva nossa: alguns dos mais eminentes filósofos da teoria da mente levam esta questão muito a sério”.

Crédito da imagem em destaque