L’intelligence artificielle (IA) a fait un grand pas en avant avec le développement d’un nouveau modèle connu sous le nom de Mixtral 8x7B. Ce modèle, qui utilise une approche unique appelée architecture de mélange d’experts (MoE), fait des vagues dans la communauté des chercheurs en IA. L’équipe à l’origine de Mixtral 8x7B, le groupe de recherche Mel AI, a créé un modèle qui non seulement rivalise avec les grands modèles linguistiques existants tels que ChatGPT et Llama, mais qui, dans certains cas, les surpasse. Le document de recherche détaillant les capacités de Mixtral 8x7B a attiré l’attention des experts et des passionnés, en mettant en évidence ses performances impressionnantes dans diverses tâches, en particulier dans les domaines des mathématiques et de la génération de code.
Mixtral des experts
Mixtral 8x7B se distingue par sa technique MoE, qui exploite les forces de plusieurs modèles spécialisés pour résoudre des problèmes complexes. Cette méthode est particulièrement efficace et permet à Mixtral 8x7B de fournir des résultats de premier ordre sans avoir besoin des ressources considérables dont dépendent généralement les modèles plus importants. Le fait que Mixtral 8x7B soit open-source est également un grand pas en avant, offrant un accès libre à la fois pour la recherche académique et les projets commerciaux.
Nous présentons Mixtral 8x7B, un modèle linguistique de type SMoE (Sparse Mixture of Experts). Mixtral a la même architecture que Mistral 7B, à la différence que chaque couche est composée de 8 blocs feedforward (c’est-à-dire d’experts). Pour chaque jeton, à chaque couche, un réseau de routeurs sélectionne deux experts pour traiter l’état actuel et combiner leurs résultats. Même si chaque jeton ne voit que deux experts, les experts sélectionnés peuvent être différents à chaque étape.
Par conséquent, chaque jeton a accès à 47B paramètres, mais n’utilise que 13B paramètres actifs pendant l’inférence. Mixtral a été entraîné avec une taille de contexte de 32k tokens et il surpasse ou égale Llama 2 70B et GPT-3.5 sur tous les benchmarks évalués. En particulier, Mixtral surpasse largement Llama 2 70B dans les domaines des mathématiques, de la génération de code et du multilinguisme.
Nous fournissons également un modèle affiné pour suivre les instructions, Mixtral 8x7B – Instruct, qui surpasse GPT-3.5 Turbo, Claude-2.1, Gemini Pro, et Llama 2 70B – chat model sur les benchmarks humains.Lesmodèles de base et d’instruction sont publiés sous la licence Apache 2.0.
Un examen plus approfondi de la structure de Mixtral 8x7B montre sa conception MoE clairsemée, qui permet une meilleure utilisation de son réseau d’experts. Le réseau d’accès, un élément clé, achemine intelligemment les questions vers les experts les plus appropriés. Cela garantit que le modèle est très efficace pour traiter les scénarios qui impliquent un long contexte. C’est cette approche ciblée qui rend Mixtral 8x7B particulièrement apte à accomplir des tâches qui requièrent du bon sens, une connaissance approfondie du monde et des compétences avancées en matière de compréhension de la lecture.
Document de recherche sur Mixtral 8x7B
Un autre aspect de Mixtral 8x7B qui mérite l’attention est son processus de réglage fin des instructions. En adaptant les réponses à des instructions spécifiques, la variante Mixtral Instruct a obtenu d’excellents résultats au banc d’essai Mt, ce qui témoigne de ses performances de pointe. Ce processus de réglage fin témoigne de la polyvalence du modèle et de sa capacité à comprendre et à exécuter des instructions complexes avec précision.
Comparé à d’autres modèles, Mixtral 8x7B brille par son efficacité et ses performances. La recherche suggère (lien vers les documents de recherche) que Mixtral 8x7B pourrait même surpasser les capacités de GPT-4, une affirmation audacieuse qui souligne les contributions significatives du modèle dans ce domaine. Alors que la communauté de l’intelligence artificielle continue d’explorer les possibilités de Mixtral 8x7B, ses performances remarquables et le fait qu’il s’agisse d’un logiciel libre sont en passe d’avoir un impact durable sur la recherche et les applications dans le domaine de l’intelligence artificielle.