A Instrução PDDL do MIT melhora a validade do plano LLAMA-3-8B

Pesquisadores do Laboratório de Inteligência Artificial e Ciência da Computação do MIT desenvolveram instrução de PDDL, uma estrutura usando o raciocínio lógico e a validação externa para melhorar como os grandes modelos de linguagem geram planos de várias etapas, alcançando até 94% de validade em benchmarks específicos. A estrutura aborda a falha comum de grandes modelos de linguagem (LLMS) em produzir planos logicamente válidos, que geralmente parecem plausíveis, mas estão incorretos. O PDDL-Instruct contesta isso, integrando a semântica explícita do estado e da ação com a verificação da verdadeira-verdade. Através da “educação de erros”, os modelos são treinados para explicar falhas de plano, incluindo pré -condições insatisfeitas, efeitos incorretos, violações de quadros ou uma meta não alcançada. Uma cadeia lógica de pensamento (COT) que solicita o método também orienta o modelo para realizar inferência passo a passo, produzindo traços detalhados de estado-estado-estado formatados como ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ com base na semântica formal. Para garantir a correção, cada etapa de um plano gerado é verificado pelo validador externo do plano Val. O sistema pode receber feedback binário (válido/inválido) ou feedback detalhado, especificando qual condição ou efeito falhou. A pesquisa indicou que o feedback detalhado produziu os ganhos de desempenho mais fortes. A instrução PDDL também utiliza um processo de otimização de dois estágios. O primeiro estágio otimiza as cadeias de raciocínio do modelo, penalizando erros de transição do estado. A segunda etapa otimiza a precisão final do plano de tarefas finais, criando um regime de treinamento sistemático. O sistema foi avaliado na referência do PlanBench, que inclui os domínios Blocksworld, Mystery Blocksworld e Logistics Planning. O Mystery Blocksworld é particularmente desafiador, pois ofusca nomes de predicado para impedir a correspondência de padrões; Modelos anteriores relataram menos de 5% de validade nesta tarefa sem suporte à ferramenta. Com o Instruct PDDL, um modelo LLAMA-3-8B alcançou até 94% de planos válidos no Blocksworld. No Mystery Blocksworld, a estrutura produziu melhorias nas ordens de magnitude, relatadas até 64 vezes melhor que os modelos de linha de base. Aumentos substanciais nos planos válidos também foram registrados no domínio logístico. Em todos os domínios, a estrutura demonstrou uma melhoria absoluta de 66% na geração de planos válidos em comparação com as linhas de base não dunsas. O desempenho foi aprimorado usando o feedback detalhado do validador e os orçamentos de feedback mais longos durante o treinamento. Essa abordagem neuro-simbólica fundamenta o raciocínio de um LLM em semântica formal que são verificadas automaticamente. Seu escopo atual é limitado aos domínios de linguagem de definição de domínio de planejamento clássico (PDDL) e requer Val como um oráculo externo. O método mostra utilidade para pipelines de agentes que podem acomodar um verificador, enquanto as extensões para o planejamento temporal, numérico e sensível ao custo permanecem desafios abertos.

Crédito da imagem em destaque

No Result