O Allen Institute for AI (Ai2) tornou público o Molmo, um conjunto inovador de modelos multimodais de código aberto que contestam a influência orientadora de sistemas de IA proprietários. Com pontos fortes em reconhecimento de imagem superior e insights acionáveis, o Molmo está pronto para auxiliar desenvolvedores, pesquisadores e startups ao fornecer uma ferramenta de desenvolvimento de aplicativos de IA avançada, mas fácil de usar. O lançamento chama a atenção para uma mudança importante no cenário da IA, unindo modelos de código aberto e proprietários e melhorando o acesso de todos à tecnologia de IA líder.
O Molmo oferece recursos que fornecem um grau excepcional de compreensão de imagem, permitindo que ele leia corretamente uma ampla variedade de dados visuais — de itens mundanos a gráficos e menus complexos. Em vez de ser como a maioria Modelos de IAMolmo ultrapassa a percepção ao permitir que os usuários interajam com ambientes virtuais e reais por meio de apontamento e uma gama de ações espaciais. Essa capacidade denota um avanço, permitindo a introdução de agentes de IA complexos, robótica e muitas outras aplicações que dependem de uma compreensão granular de dados visuais e contextuais.
Eficiência e acessibilidade servem como aspectos importantes da estratégia de desenvolvimento do Molmo. As habilidades avançadas do Molmo vêm de um conjunto de dados de menos de um milhão de imagens, em forte contraste com os bilhões de imagens processadas por outros modelos, como GPT-4V e Google’s Gêmeos. A abordagem implementada contribuiu para que o Molmo não fosse apenas altamente eficiente no uso de recursos computacionais, mas também criou um modelo que é igualmente poderoso quanto os sistemas proprietários mais eficazes e apresenta menos alucinações e taxas de treinamento mais rápidas.
Tornar o Molmo totalmente de código aberto é parte do esforço estratégico maior da Ai2 para democratizar o desenvolvimento de IA. A Ai2 permite que uma gama diversificada de usuários — de startups a laboratórios acadêmicos — inovem e avancem na tecnologia de IA sem os altos custos de investimento ou vasto poder de computação. Ela dá a eles acesso aos dados de treinamento de linguagem e visão, pesos de modelo e código-fonte do Molmo.
Matt Deitke, pesquisador do Instituto Allen de IA, disse “Molmo é um modelo de IA incrível com excepcional compreensão visual, que empurra a fronteira do desenvolvimento de IA ao introduzir um paradigma para a IA interagir com o mundo por meio de apontamento. O desempenho do modelo é impulsionado por um conjunto de dados com curadoria de qualidade notavelmente alta para ensinar a IA a entender imagens por meio de texto. O treinamento é muito mais rápido, barato e simples do que o que é feito hoje, de modo que o lançamento aberto de como ele é construído capacitará toda a comunidade de IA, de startups a laboratórios acadêmicos, a trabalhar na fronteira do desenvolvimento de IA”.
De acordo com avaliações internas, o maior modelo da Molmo, ostentando 72 bilhões de parâmetros, superou o GPT-4V da OpenAI e outros concorrentes líderes em vários benchmarks. O menor modelo Molmo, incluindo apenas um bilhão de parâmetros, é grande o suficiente para funcionar em um dispositivo móvel, superando modelos com dez vezes esse número de parâmetros. Aqui você pode ver os modelos e experimente você mesmo.