Pesquisadores do Alibaba desenvolveram o SkillWeaver, uma estrutura que visa melhorar o roteamento de subtarefas em sistemas empresariais de IA. SkillWeaver cria gráficos de execução para tarefas e seleciona as habilidades apropriadas para cada nó. A estrutura incorpora Skill-Aware Decomposition (SAD), uma técnica que usa um ciclo de feedback para seleção iterativa de ferramentas, distinguindo-a de estruturas que escolhem ferramentas de maneira única.
O SkillWeaver foi projetado especificamente para aplicações de IA do mundo real, como orquestração de múltiplas ferramentas por meio do Model Context Protocol (MCP) para diversas operações de negócios, incluindo manipulação de dados e relatórios. Os testes mostram que a abordagem do SkillWeaver aumenta a precisão e reduz o consumo de tokens em mais de 99% em comparação com a exposição dos agentes a uma biblioteca inteira de ferramentas.
O principal desafio enfrentado nos sistemas de IA é a granularidade da decomposição das tarefas, uma vez que as consultas práticas envolvem frequentemente pedidos de composição que requerem múltiplas competências. As habilidades são definidas como especificações modulares e reutilizáveis que utilizam documentação estruturada em linguagem natural. As atuais estruturas de IA muitas vezes enfrentam dificuldades ao tratar o roteamento de ferramentas como uma tarefa de seleção de habilidade única, o que é insuficiente para fluxos de trabalho complexos.
A operação do SkillWeaver consiste em três estágios: Decompor, Recuperar e Compor. No estágio de decomposição, um LLM divide as consultas complexas do usuário em subtarefas gerenciáveis. Em seguida, o estágio Recuperar emprega um modelo de incorporação para identificar ferramentas candidatas para cada subtarefa de uma biblioteca de habilidades. Por fim, a etapa Compose avalia a compatibilidade dessas ferramentas e formula um Gráfico Acíclico Direcionado (DAG) que descreve o plano de execução.
SkillWeaver também aborda o problema de LLMs gerarem descrições genéricas implementando o ciclo de feedback SAD. Este mecanismo faz com que o LLM elabore um plano inicial, recupere competências correspondentes e refine a sua decomposição com base nas ferramentas recuperadas, garantindo o alinhamento com vocabulários técnicos específicos.
Para avaliar a eficácia, os pesquisadores criaram o CompSkillBench, um benchmark com 300 consultas em várias etapas baseadas em 2.209 habilidades do mundo real. O mecanismo principal empregou um modelo de 7 bilhões de parâmetros (Qwen2.5-7B-Instruct) para o processo de decomposição e um recuperador de pesquisa semântica. Os testes revelaram que o ciclo de feedback do SAD aumentou a precisão da decomposição de 51,0% para 67,7%, com modelos superiores atingindo 92% de precisão.
Os resultados destacaram que menos orientação pode levar à diminuição do desempenho em modelos maiores. Uma configuração básica usando um modelo maior teve desempenho pior do que o modelo menor devido a quebras desnecessárias de tarefas. A pesquisa demonstrou que o alinhamento adequado com o vocabulário da ferramenta costuma ser mais impactante do que simplesmente utilizar um modelo maior.
Foram observadas economias significativas de tokens, com o SkillWeaver reduzindo o consumo da janela de contexto de aproximadamente 884.000 tokens para cerca de 1.160 tokens por consulta, levando a custos reduzidos de API e tempos de resposta mais rápidos. Em contraste, o método LLM-Direct conseguiu apenas uma taxa de precisão de 21,1% na recuperação de ferramentas, enquanto os agentes do estilo ReAct alcançaram 0% de precisão.
Embora o código-fonte do SkillWeaver não tenha sido lançado, os pesquisadores forneceram modelos de prompt que os desenvolvedores podem implementar usando bibliotecas existentes como LangChain e LlamaIndex. O framework requer a vetorização inicial da biblioteca de ferramentas e a construção de um índice FAISS, que pode ser concluído em pouco tempo, minimizando a latência durante a recuperação.
Uma limitação do SkillWeaver é a falta de recuperação de erros em cadeias de ferramentas de várias etapas. O estudo indicou que se uma etapa falhar, compromete toda a cadeia, destacando a necessidade de melhorias nos mecanismos de tratamento de erros dentro da estrutura.





