A empresa chinesa Deepseek AI lançou seu grande modelo de idioma, R1, que foi treinado por apenas US $ 294.000 usando 512 GPUs NVIDIA H800. Em um artigo publicado na revista Naturezaa Companhia detalhou como alcançou esse baixo custo usando um método de aprendizado de reforço de avaliação e erro, permitindo que o modelo obtenha desempenho competitivo contra rivais com orçamentos muito maiores, como o OpenAI.
Como funciona o método de aprendizado de reforço do Deepseek
A principal inovação da Deepseek foi se afastar do processo caro e intensivo em humanos de criar conjuntos de dados anotados. Os modelos tradicionais de IA para tarefas de raciocínio são frequentemente treinados em vastos conjuntos de dados, onde especialistas humanos fornecem soluções passo a passo para problemas complexos. Em vez disso, a DeepSeek desenvolveu um sistema de aprendizado autônomo que usa o aprendizado de reforço para refinar as habilidades de raciocínio do modelo por meio de um sistema de recompensas e penalidades. Pesquisadores da Universidade Carnegie Mellon, em um artigo que acompanham o artigo Nature, compararam o processo a uma criança aprendendo a jogar um videogame.
“À medida que a criança navega em seu avatar pelo mundo dos jogos, eles aprendem através de tentativas e erros que algumas ações (como a coleta de moedas de ouro) ganham pontos, enquanto outros (como encontrar inimigos) devolveram sua pontuação a zero. Em uma veia semelhante, a Deepseek-R1 recebeu uma pontuação alta quando respondeu às perguntas corretamente e uma pontuação baixa quando deu as respostas erradas”.
Esse método foi particularmente eficaz para tarefas em matemática e programação, onde as respostas podem ser definitivamente verificadas como corretas ou erradas. O modelo geraria soluções em potencial, que foram avaliadas por um sistema de pontuação automatizado. Iteria então sua abordagem até alcançar a pontuação mais alta, tudo sem intervenção humana. Esse processo eficiente e auto-dirigido permitiu à empresa construir um poderoso sistema de IA com uma fração do investimento exigido por seus concorrentes.
Limitações e preocupações sobre o modelo
Embora a abordagem de aprendizado de reforço tenha sido econômica, ela também tem algumas limitações. Os resultados do modelo geralmente ocultam as etapas de raciocínio subjacentes, dificultando a compreensão de um humano como chegou a uma conclusão. Quando solicitado a fornecer seu raciocínio, o R1 gerou explicações extremamente longas e difíceis de ler-às vezes mais de 10.000 palavras-que mudaram entre inglês e chinês. A técnica também lutou com tarefas que exigem nuances ou subjetividade, onde não há resposta “correta”. Além de suas limitações técnicas, o desenvolvimento do modelo na China levantou preocupações sobre a potencial influência do governo. Um relatório recente do Washington Post constatou que o R1 exibia vieses em seus resultados. Os pesquisadores descobriram que o modelo se recusaria a gerar código com grandes falhas de segurança quando os avisos envolverem grupos considerados sensíveis pelas autoridades chinesas. No entanto, quando solicitado a criar código para entidades como Tibete, Taiwan ou o Movimento Religioso Falun Gong, o modelo produziu versões menos seguras com vulnerabilidades internas. Isso sugere que o comportamento do modelo pode ser moldado pelas prioridades políticas do governo chinês.