Mistral AI Mixtral 8x7B mélange d’experts modèle d’intelligence artificielle des benchmarks impressionnants révélés

Mistral AI a récemment dévoilé un modèle innovant de mélange d’experts qui fait des vagues dans le domaine de l’intelligence artificielle. Ce nouveau modèle, qui est désormais disponible gratuitement par l’intermédiaire de Perplexity AI, a été affiné avec l’aide de la communauté open-source, ce qui en fait un concurrent de taille face au modèle GPT-3.5 bien établi. La caractéristique principale du modèle est sa capacité à fournir des performances élevées tout en nécessitant potentiellement aussi peu que 4 Go de VRAM, grâce à des techniques de compression avancées qui préservent son efficacité. Cette avancée suggère que même les personnes disposant de ressources matérielles limitées pourraient bientôt avoir accès à des capacités d’IA de pointe. Mistral AI en dit plus sur le nouveau Mixtral 8x7B :

« Aujourd’hui, l’équipe est fière de publier Mixtral 8x7B, un modèle de mélange d’experts clairsemé (SMoE) de haute qualité avec des poids ouverts. Il est sous licence Apache 2.0. Mixtral surpasse Llama 2 70B sur la plupart des benchmarks avec une inférence 6x plus rapide. C’est le modèle à poids ouverts le plus puissant avec une licence permissive et le meilleur modèle dans l’ensemble en ce qui concerne les compromis coût/performance. En particulier, il égale ou surpasse GPT3.5 sur la plupart des benchmarks standards ».

La sortie de Mixtral 8x7B par Mistral AI marque une avancée significative dans le domaine de l’intelligence artificielle, en particulier dans le développement de modèles de mélanges d’experts épars (SMoE). Ce modèle, Mixtral 8x7B, est un SMoE de haute qualité avec des poids ouverts, sous licence Apache 2.0. Il se distingue par ses performances, supérieures à celles de Llama 2 70B sur la plupart des points de référence, tout en offrant une inférence six fois plus rapide. Cela fait de Mixtral le premier modèle à poids ouvert avec une licence permissive, et il est très efficace en termes de coûts et de performances, égalant ou dépassant même GPT3.5 sur les benchmarks standards.

Mixtral 8x7B présente plusieurs capacités impressionnantes. Il peut gérer un contexte de 32k tokens et prend en charge plusieurs langues, dont l’anglais, le français, l’italien, l’allemand et l’espagnol. Ses performances en matière de génération de code sont excellentes et il peut être affiné pour devenir un modèle de suivi d’instructions, obtenant un score de 8,3 sur MT-Bench.

Modèle de mélange d’experts Mistral AI MoE

Les résultats obtenus par le modèle de Mistral AI ne sont pas seulement des statistiques impressionnantes ; ils représentent une avancée significative qui pourrait surpasser les performances de modèles existants tels que GPT-3.5. L’impact potentiel de la mise à disposition gratuite d’un outil aussi puissant est immense, et c’est une perspective passionnante pour ceux qui souhaitent tirer parti de l’IA pour diverses applications. Les performances du modèle sur des ensembles de données difficiles, comme H SWAG et MML, sont particulièrement remarquables. Ces repères sont essentiels pour évaluer les points forts du modèle et identifier les domaines à améliorer.

L’architecture de Mixtral est particulièrement remarquable. Il s’agit d’un réseau de mélange d’experts clairsemé à décodeur uniquement, qui utilise un bloc feedforward sélectionnant 8 groupes distincts de paramètres. Un réseau de routeurs à chaque couche choisit deux groupes pour traiter chaque jeton, en combinant leurs résultats de manière additive. Bien que Mixtral ait 46,7 milliards de paramètres au total, il n’utilise que 12,9 milliards de paramètres par jeton, ce qui lui permet de conserver la vitesse et la rentabilité d’un modèle plus petit. Ce modèle est pré-entraîné sur des données provenant du web ouvert, ce qui permet d’entraîner simultanément les experts et les routeurs.

Par rapport à d’autres modèles tels que la famille Llama 2 et GPT3.5, Mixtral est équivalent ou supérieur à ces modèles dans la plupart des points de référence. En outre, il fait preuve de plus de véracité et de moins de partialité, comme le montrent ses performances dans les tests TruthfulQA et BBQ, où il affiche un pourcentage plus élevé de réponses véridiques et présente moins de partialité que le Llama 2.

Regardez cette vidéo sur YouTube.

En outre, Mistral AI a également lancé Mixtral 8x7B Instruct, parallèlement au modèle original. Cette version a été optimisée par le biais d’un réglage fin supervisé et d’une optimisation des préférences directes (DPO) pour un suivi précis des instructions, atteignant un score de 8,30 sur MT-Bench. Cela en fait l’un des meilleurs modèles open-source, comparable à GPT3.5 en termes de performances. Le modèle peut être invité à exclure certaines sorties pour les applications nécessitant des niveaux de modération élevés, ce qui démontre sa flexibilité et son adaptabilité.

Pour soutenir le déploiement et l’utilisation de Mixtral, des modifications ont été soumises au projet vLLM, incorporant les noyaux CUDA Megablocks pour une inférence efficace. En outre, Skypilot permet le déploiement de points d’extrémité vLLM dans des instances en nuage, améliorant ainsi l’accessibilité et la facilité d’utilisation de Mixtral dans diverses applications.

Mise au point et formation à l’IA

Le processus de formation et de mise au point du modèle, qui comprend des ensembles de données d’instruction, joue un rôle essentiel dans sa réussite. Ces ensembles de données sont conçus pour améliorer la capacité du modèle à comprendre et à suivre les instructions, ce qui le rend plus convivial et plus efficace. Les contributions continues de la communauté des logiciels libres sont essentielles à l’avancement continu du modèle. Leur engagement dans le projet garantit que le modèle reste à jour et continue de s’améliorer, incarnant l’esprit du progrès collectif et du partage des connaissances.

Alors que l’on attend avec impatience des versions plus raffinées et des mises à jour de Mistral AI, le modèle de mélange d’experts s’est déjà imposé comme un développement important. Avec un soutien et un développement continus, il a le potentiel de redéfinir les références en matière de performance de l’IA.

Le modèle de mélange d’experts de Mistral AI constitue une avancée notable dans le paysage de l’IA. Grâce à ses excellents résultats aux tests de référence, à sa disponibilité gratuite via Perplexity AI et au soutien d’une communauté open-source dévouée, le modèle est bien placé pour avoir un impact durable. La possibilité de le faire fonctionner avec seulement 4 Go de VRAM ouvre des perspectives intéressantes pour un accès plus large aux technologies d’IA avancées. La sortie de Mixtral 8x7B représente une avancée significative dans le domaine de l’IA, en particulier dans le développement de SMoEs efficaces et puissants. Ses performances, sa polyvalence et ses avancées en matière de traitement des biais et de la véracité en font un ajout notable au paysage technologique de l’IA.

Crédit photo : Mistral AI

Lire plus Guide:

Étiquettes :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *