Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Adele da Microsoft quer dar um perfil cognitivo à sua IA

byKerem Gülen
14 Maio 2025
in Research
Home Research
Share on FacebookShare on Twitter

Os modelos modernos de IA estão avançando na velocidade vertiginosa, mas a maneira como os avaliamos mal acompanha o ritmo. Os benchmarks tradicionais nos dizem se um modelo passou ou falhou em um teste, mas raramente oferece informações sobre o motivo pelo qual ele fez a maneira como se saiu ou como poderia se sair de desafios desconhecidos. Um novo esforço de pesquisa da Microsoft e de seus colaboradores propõe uma estrutura rigorosa que reimagina como avaliamos os sistemas de IA.

Avaliando a IA pelo que precisa saber

A inovação central introduzido Neste estudo é uma estrutura chamada Adele, abreviação de níveis de demanda anotados. Em vez de testar modelos isolados, Adele obtém o modelo e a tarefa no mesmo conjunto de escalas cognitivas e baseadas no conhecimento. O resultado é um perfil abrangente que captura o quão exigente é uma tarefa e se um sistema de IA específico possui os recursos necessários para lidar com isso.

Adele opera 18 escalas geraiscada um refletindo um aspecto essencial do conhecimento cognitivo ou de domínio, como raciocínio, atenção ou experiência formal no assunto. As tarefas são classificadas de 0 a 5 em cada dimensão, indicando quanto essa habilidade contribui para a conclusão bem -sucedida da tarefa. Essa anotação do lado duplo cria uma espécie de pontuação de compatibilidade entre modelos e tarefas, possibilitando prever resultados e explicar falhas antes que elas aconteçam.

Microsoft Adele quer dar à sua IA um perfil ccognitivo
Imagem: Microsoft

O que diferencia Adele é sua base em psicometria – um campo preocupado em medir as habilidades humanas. Ao adaptar essas ferramentas de avaliação humana para a IA, os pesquisadores construíram uma estrutura que pode ser usada de maneira confiável por sistemas automatizados. Adele foi aplicado a 63 tarefas de 20 benchmarks de IA estabelecidos, cobrindo mais do que 16.000 exemplos. Os pesquisadores usaram este conjunto de dados para avaliar 15 grandes modelos de idiomas, incluindo líderes do setor como GPT-4, LLAMA-3.1-405B e Deepseek-R1-Dist-Qwen-32b.

O processo gerou perfis de habilidade para cada modelo. Esses perfis ilustram como as taxas de sucesso variam com a complexidade das tarefas em diferentes habilidades, oferecendo uma compreensão granular das capacidades do modelo. Os gráficos de radar visualizam esses perfis nas 18 dimensões de habilidade, revelando padrões matizados que as pontuações de referência cruas por si só não podem.

Esta extensa avaliação surgiu várias descobertas que desafiam as suposições atuais sobre o desempenho e o progresso da IA.

  1. Primeiro, Os benchmarks de IA existentes geralmente deixam de testar o que afirmam. Por exemplo, uma referência projetada para raciocínio lógico também pode exigir conhecimento de nicho de domínio ou altos níveis de metacognição, diluindo o foco pretendido.
  2. Segundo, A equipe descobriu padrões de habilidade distintos em grandes modelos de linguagem. Modelos focados em raciocínio superaram consistentemente outras pessoas em tarefas envolvendo lógica, abstração e compreensão do contexto social. No entanto, o tamanho bruto por si só não garantiu superioridade. Após um certo ponto, ampliando os modelos produzindo retornos decrescentes em muitas áreas de habilidade. Técnicas de treinamento e design de modelo pareciam desempenhar um papel maior no refinamento do desempenho em domínios cognitivos específicos.
  3. Terceiro, E talvez mais significativamente, Adele permitiu previsões precisas do sucesso do modelo em tarefas desconhecidas. Ao comparar as demandas de tarefas com as habilidades do modelo, os pesquisadores alcançaram precisão de previsão de até 88 %. Isso representa um salto substancial sobre abordagens de caixa preta que dependem de incorporações ou escores ajustados sem qualquer compreensão da dificuldade de tarefa ou da cognição modelada.
Microsoft Adele quer dar à sua IA um perfil ccognitivo
Imagem: Microsoft

Usando a abordagem de correspondência de demanda de capacidade, a equipe desenvolveu um sistema capaz de prever o comportamento da IA ​​em uma ampla gama de cenários. Seja aplicado a novos benchmarks ou desafios do mundo real, esse sistema fornece um método estruturado e interpretável para antecipar falhas e identificar modelos adequados para casos de uso específicos. Essa capacidade preditiva é particularmente relevante em ambientes de alto risco, onde a confiabilidade e a responsabilidade não são negociáveis.

Em vez de implantar a IA com base em reputação geral ou notas limitadas de tarefas, os desenvolvedores e tomadores de decisão agora podem usar avaliações no nível da demanda para combinar sistemas a tarefas com muito maior confiança. Isso suporta não apenas a implementação mais confiável, mas também a melhor governança, pois as partes interessadas podem rastrear o comportamento do modelo às habilidades e limitações mensuráveis.


O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?


As implicações de Adele se estendem além dos laboratórios de pesquisa. Esse método de avaliação oferece uma base para avaliações padronizadas e interpretáveis ​​que podem apoiar tudo, desde a pesquisa e o desenvolvimento de produtos da IA ​​até a supervisão regulatória e a confiança do público. À medida que a IA de uso geral se torna incorporado em setores como educação, saúde e lei, entender como os modelos se comportarão fora do contexto de treinamento se torna não apenas útil, mas essencial.

O design modular de Adele permite que ele seja adaptado aos sistemas multimodais e incorporados, expandindo ainda mais sua relevância. Ele se alinha com a posição mais ampla da Microsoft sobre a importância da psicometria nas chamadas de IA e ecoes nos recentes bolos de brancos para ferramentas de avaliação de IA mais transparentes, transferíveis e confiáveis.

Em direção a padrões de avaliação mais inteligentes

Para todo o otimismo em torno dos modelos de fundação, um dos riscos iminentes tem sido a falta de práticas significativas de avaliação. Os benchmarks impulsionaram o progresso, mas também limitaram nossa visibilidade ao que os modelos realmente entendem ou como podem se comportar em situações inesperadas. Com Adele, agora temos um caminho para mudar isso.

Este trabalho reformula a avaliação não como uma lista de verificação de pontuações, mas como uma interação dinâmica entre sistemas e tarefas. Ao tratar o desempenho em função do ajuste da capacidade de demanda, ele estabelece as bases para uma compreensão mais científica, confiável e diferenciada das capacidades de IA. Essa base é crítica não apenas para o progresso técnico, mas também para a adoção responsável de IA em contextos humanos complexos.


Crédito da imagem em destaque

Tags: AiApresentouMicrosoft

Related Posts

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

14 Maio 2025
O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

14 Maio 2025
O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

14 Maio 2025
Pesquisa: o padrão -ouro para avaliação de Genai

Pesquisa: o padrão -ouro para avaliação de Genai

12 Maio 2025
Ai finalmente resolve o quebra -cabeça mais difícil da biologia

Ai finalmente resolve o quebra -cabeça mais difícil da biologia

6 Maio 2025
A obra -prima de Raphael pode não ser toda a sua

A obra -prima de Raphael pode não ser toda a sua

5 Maio 2025

Recent Posts

  • Pronto para um chatgpt que realmente o conhece?
  • As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem
  • O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?
  • Adele da Microsoft quer dar um perfil cognitivo à sua IA
  • O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.