Publicação de um novo relatório de pesquisa sobre Mixtral 8x7B – Mixtral of Experts (MoE)

A inteligência artificial (IA) deu um grande passo em frente com o desenvolvimento de um novo modelo conhecido como Mixtral 8x7B. Este modelo, que usa uma abordagem única chamada arquitetura de mistura de especialistas (MoE), está causando impacto na comunidade de pesquisa de IA. A equipe por trás do Mixtral 8x7B, Mel AI Research Group, criou um modelo que não apenas rivaliza, mas em alguns casos, supera os grandes modelos de linguagem existentes, como ChatGPT e Llama. O trabalho de pesquisa que detalha as capacidades do Mixtral 8x7B atraiu a atenção de especialistas e entusiastas, destacando seu desempenho impressionante em diversas tarefas, especialmente nas áreas de matemática e geração de código.

Mixtral de especialistas

Mixtral 8x7B se destaca por sua técnica MoE, que aproveita os pontos fortes de múltiplos modelos especializados para resolver problemas complexos. Este método é particularmente eficiente e permite que o Mixtral 8x7B forneça resultados de alto nível sem a necessidade dos recursos consideráveis ​​dos quais os modelos maiores normalmente dependem. O fato de o Mixtral 8x7B ser de código aberto também é um grande avanço, proporcionando acesso aberto tanto para pesquisas acadêmicas quanto para projetos comerciais.

Apresentamos o Mixtral 8x7B, um modelo linguístico SMoE (Sparse Mixture of Experts). Mixtral possui a mesma arquitetura do Mistral 7B, com a diferença de que cada camada é composta por 8 blocos feedforward (ou seja, especialistas). Para cada token, em cada camada, uma rede de roteadores seleciona dois especialistas para processar o estado atual e combinar seus resultados. Embora cada token conte com apenas dois especialistas, os especialistas selecionados podem ser diferentes em cada etapa.
Portanto, cada token tem acesso a 47B de parâmetros, mas utiliza apenas 13B de parâmetros ativos durante a inferência. Mixtral foi treinado com um tamanho de contexto de 32 mil tokens e supera ou iguala Llama 2 70B e GPT-3.5 em todos os benchmarks avaliados. Em particular, o Mixtral supera significativamente o Llama 2 70B nas áreas de matemática, geração de código e multilinguismo.
Também fornecemos um modelo ajustado para instruções de rastreamento, Mixtral 8x7B – Instruct, que supera GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B – modelo de bate-papo em benchmarks humanos.Os Modelos básicos e instrucionais são lançados sob a licença Apache 2.0.

Uma análise mais detalhada da estrutura do Mixtral 8x7B mostra seu design MoE esparso, o que permite um melhor uso de sua rede especializada. A rede de acesso, elemento-chave, encaminha de forma inteligente as dúvidas aos especialistas mais adequados. Isso garante que o modelo seja muito eficaz no tratamento de cenários que envolvem um contexto longo. É esta abordagem focada que torna o Mixtral 8x7B especialmente adequado para realizar tarefas que exigem bom senso, conhecimento profundo do mundo e habilidades avançadas de compreensão de leitura.

Artigo de pesquisa sobre Mixtral 8x7B

Outro aspecto do Mixtral 8x7B que merece atenção é o processo de ajuste fino de instruções. Ao adaptar as respostas a instruções específicas, a variante Mixtral Instruct obteve excelentes resultados na bancada de testes Mt, demonstrando seu desempenho líder do setor. Este processo de ajuste fino é uma prova da versatilidade do modelo e da capacidade de compreender e executar instruções complexas com precisão.

Comparado a outros modelos, o Mixtral 8x7B brilha pela sua eficiência e desempenho. A pesquisa sugere (link para artigos de pesquisa) que o Mixtral 8x7B poderia até superar as capacidades do GPT-4, uma afirmação ousada que destaca as contribuições significativas do modelo nesta área. À medida que a comunidade de inteligência artificial continua a explorar as possibilidades do Mixtral 8x7B, o seu notável desempenho e software de código aberto estão preparados para ter um impacto duradouro na investigação e aplicações no campo da inteligência artificial.

Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios estão marcados com *