Mistral, uma startup francesa de IA, causou impacto na comunidade de IA com o lançamento do Mixtral 8x7B, seu mais recente modelo de IA de código aberto. Este modelo atraiu atenção por potencialmente superar o GPT-3.5 da OpenAI e o Llama 2 da Meta em desempenho. A empresa adotou uma abordagem única ao lançar seu mais recente modelo de linguagem grande sem cerimônia por meio de um link de torrent nas redes sociais. Este movimento contrasta com a fanfarra típica associada aos lançamentos de IA, mostrando a atitude distinta e semelhante a um hacker do Mistral.
Mixtral 8x7B: uma nova potência de IA
Recentemente, Mistral levantou uma impressionantes US$ 415 milhões em uma rodada de financiamento da Série A, elevando sua avaliação para cerca de US$ 2 bilhões. Este crescimento financeiro destaca o sucesso e o potencial da empresa no setor de IA. Mixtral 8x7B, empregando uma abordagem de “mistura de especialistas”, integra vários modelos, cada um especializado em diferentes tarefas. Esta técnica inovadora levou ao seu desempenho impressionante, igualando ou superando o GPT-3.5 e o Llama 2 em vários benchmarks. Mistral lançou este modelo on-line, seguido por uma postagem no blog oficial detalhando suas capacidades e confirmou que está disponível para uso comercial sob uma licença Apache 2.0.
Pegada pequena: pode ser executado em um Mac
Uma das características notáveis do Mixtral 8x7B é a sua capacidade de funcionar em dispositivos sem GPU, potencialmente democratizando o acesso à tecnologia avançada de IA. O modelo alcança resultados de última geração entre modelos abertos, com pontos fortes na geração de linguagem em contextos longos e na geração de código.
Para quem não acompanha a IA de perto:
1) Um modelo de código aberto (gratuito, qualquer pessoa pode baixar ou modificar) supera o GPT-3.5
2) Não possui grades de segurança
Há coisas boas neste lançamento, mas também os reguladores, especialistas em segurança de TI, etc., devem observar que o gênio saiu da garrafa. https://t.co/nHvlNKaItw-Ethan Mollick (@emollick) 11 de dezembro de 2023
Entusiastas e profissionais de IA adotaram rapidamente o Mixtral 8x7B, impressionados com seu desempenho e flexibilidade. O tamanho reduzido do modelo permite que ele seja executado em máquinas sem GPUs dedicadas, incluindo os mais recentes computadores Apple Mac. No entanto, a falta de grades de segurança, conforme observado pelo professor da Wharton School, Ethan Mollick, levantou preocupações sobre conteúdo considerado inseguro por outros modelos.
6x mais rápido que o Llama 2 70B
Mixtral 8x7B se destaca por sua velocidade de inferência seis vezes mais rápida em comparação com Lhama 2 70B, graças à sua arquitetura de modelo esparsa e oito blocos feedforward diferentes no Transformer. Ele oferece suporte a recursos multilíngues, excelente geração de código e uma janela de contexto de 32k. A avaliação da Mistral disparou para mais de US$ 2 bilhões em apenas seis meses, destacando a importância crescente de grandes modelos de mistura de especialistas no cenário de IA.
Código aberto sem limites
Mixtral 8x7B, um modelo de código aberto, está provando ser uma virada de jogo. Ele não apenas supera alguns concorrentes dos EUA, como a família Llama 2 da Meta e o GPT-3.5 da OpenAI, mas também oferece desempenho rápido e eficiente. A disponibilidade de código aberto do modelo contrasta com a abordagem de código fechado da OpenAI, alinhando-se com o compromisso da Mistral com uma “abordagem aberta, responsável e descentralizada da tecnologia”.
O modelo de Mistral é uma mistura esparsa de modelos especialistas (SMoE) de alta qualidade com pesos abertos, licenciada sob Apache 2.0. Ele mostrou desempenho superior na maioria dos benchmarks em comparação ao Llama 2 70B, alcançando inferência seis vezes mais rápida. Esta eficiência marca o Mixtral 8x7B como o modelo aberto mais forte em termos de custo e desempenho.