Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Deepseek lança o modelo R1 treinado por US $ 294.000 em 512 GPUs H800

byAytun Çelebi
19 Setembro 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

A empresa chinesa Deepseek AI lançou seu grande modelo de idioma, R1, que foi treinado por apenas US $ 294.000 usando 512 GPUs NVIDIA H800. Em um artigo publicado na revista Naturezaa Companhia detalhou como alcançou esse baixo custo usando um método de aprendizado de reforço de avaliação e erro, permitindo que o modelo obtenha desempenho competitivo contra rivais com orçamentos muito maiores, como o OpenAI.

Como funciona o método de aprendizado de reforço do Deepseek

A principal inovação da Deepseek foi se afastar do processo caro e intensivo em humanos de criar conjuntos de dados anotados. Os modelos tradicionais de IA para tarefas de raciocínio são frequentemente treinados em vastos conjuntos de dados, onde especialistas humanos fornecem soluções passo a passo para problemas complexos. Em vez disso, a DeepSeek desenvolveu um sistema de aprendizado autônomo que usa o aprendizado de reforço para refinar as habilidades de raciocínio do modelo por meio de um sistema de recompensas e penalidades. Pesquisadores da Universidade Carnegie Mellon, em um artigo que acompanham o artigo Nature, compararam o processo a uma criança aprendendo a jogar um videogame.

“À medida que a criança navega em seu avatar pelo mundo dos jogos, eles aprendem através de tentativas e erros que algumas ações (como a coleta de moedas de ouro) ganham pontos, enquanto outros (como encontrar inimigos) devolveram sua pontuação a zero. Em uma veia semelhante, a Deepseek-R1 recebeu uma pontuação alta quando respondeu às perguntas corretamente e uma pontuação baixa quando deu as respostas erradas”.

Esse método foi particularmente eficaz para tarefas em matemática e programação, onde as respostas podem ser definitivamente verificadas como corretas ou erradas. O modelo geraria soluções em potencial, que foram avaliadas por um sistema de pontuação automatizado. Iteria então sua abordagem até alcançar a pontuação mais alta, tudo sem intervenção humana. Esse processo eficiente e auto-dirigido permitiu à empresa construir um poderoso sistema de IA com uma fração do investimento exigido por seus concorrentes.

Limitações e preocupações sobre o modelo

Embora a abordagem de aprendizado de reforço tenha sido econômica, ela também tem algumas limitações. Os resultados do modelo geralmente ocultam as etapas de raciocínio subjacentes, dificultando a compreensão de um humano como chegou a uma conclusão. Quando solicitado a fornecer seu raciocínio, o R1 gerou explicações extremamente longas e difíceis de ler-às vezes mais de 10.000 palavras-que mudaram entre inglês e chinês. A técnica também lutou com tarefas que exigem nuances ou subjetividade, onde não há resposta “correta”. Além de suas limitações técnicas, o desenvolvimento do modelo na China levantou preocupações sobre a potencial influência do governo. Um relatório recente do Washington Post constatou que o R1 exibia vieses em seus resultados. Os pesquisadores descobriram que o modelo se recusaria a gerar código com grandes falhas de segurança quando os avisos envolverem grupos considerados sensíveis pelas autoridades chinesas. No entanto, quando solicitado a criar código para entidades como Tibete, Taiwan ou o Movimento Religioso Falun Gong, o modelo produziu versões menos seguras com vulnerabilidades internas. Isso sugere que o comportamento do modelo pode ser moldado pelas prioridades políticas do governo chinês.


Crédito da imagem em destaque

Tags: ApresentouDeepseek

Related Posts

Xai Chatbot Grok de Elon Musk expôs centenas de milhares de conversas privadas de usuários

Xai Chatbot Grok de Elon Musk expôs centenas de milhares de conversas privadas de usuários

19 Setembro 2025
Google Cloud adiciona adorável e windsurf como clientes de codificação de IA

Google Cloud adiciona adorável e windsurf como clientes de codificação de IA

19 Setembro 2025
Zoom anuncia a IA Companion 3.0 no Zoomtopia

Zoom anuncia a IA Companion 3.0 no Zoomtopia

19 Setembro 2025
O Gemini AI do Google atinge a medalha de ouro na prestigiada competição de codificação do ICPC, superando a maioria das equipes humanas

O Gemini AI do Google atinge a medalha de ouro na prestigiada competição de codificação do ICPC, superando a maioria das equipes humanas

18 Setembro 2025
Os laboratórios de IA investem em ambientes RL para agentes autônomos

Os laboratórios de IA investem em ambientes RL para agentes autônomos

17 Setembro 2025
A IA em escala garante contrato de US $ 100 milhões para o Pentágono para implantação da plataforma de IA

A IA em escala garante contrato de US $ 100 milhões para o Pentágono para implantação da plataforma de IA

17 Setembro 2025

Recent Posts

  • Deepseek lança o modelo R1 treinado por US $ 294.000 em 512 GPUs H800
  • A NVIDIA gasta mais de US $ 900 milhões para contratar o CEO da ENFABRICA e licenciar tecnologia de hardware AI
  • O jogo do Roblox roube um Brainrot remove o personagem gerado pela IA, provocando reação aos fãs e um debate sobre direitos autorais
  • Xai Chatbot Grok de Elon Musk expôs centenas de milhares de conversas privadas de usuários
  • Google Cloud adiciona adorável e windsurf como clientes de codificação de IA

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.