Publisering av en ny forskningsrapport om Mixtral 8x7B – Mixtral of Experts (MoE)

Kunstig intelligens (AI) har tatt et stort skritt fremover med utviklingen av en ny modell kjent som Mixtral 8x7B. Denne modellen, som bruker en unik tilnærming kalt blanding av eksperter (MoE) arkitektur, skaper bølger i AI-forskningsmiljøet. Teamet bak Mixtral 8x7B, Mel AI Research Group, har laget en modell som ikke bare konkurrerer med, men i noen tilfeller utkonkurrerer eksisterende store språkmodeller som ChatGPT og Llama. Forskningsoppgaven som beskriver egenskapene til Mixtral 8x7B har tiltrukket seg oppmerksomheten til eksperter og entusiaster, og fremhever dens imponerende ytelse i ulike oppgaver, spesielt innen matematikk og kodegenerering.

Blanding av eksperter

Mixtral 8x7B skiller seg ut for sin MoE-teknikk, som utnytter styrken til flere spesialiserte modeller for å løse komplekse problemer. Denne metoden er spesielt effektiv og lar Mixtral 8x7B levere førsteklasses resultater uten å trenge de betydelige ressursene som større modeller vanligvis er avhengige av. Det faktum at Mixtral 8x7B er åpen kildekode er også et stort skritt fremover, og gir åpen tilgang for både akademisk forskning og kommersielle prosjekter.

Vi presenterer Mixtral 8x7B, en SMoE (Sparse Mixture of Experts) språklig modell. Mixtral har samme arkitektur som Mistral 7B, med den forskjellen at hvert lag består av 8 feedforward-blokker (dvs. eksperter). For hvert token, på hvert lag, velger et nettverk av rutere to eksperter til å behandle gjeldende tilstand og kombinere resultatene deres. Selv om hvert token bare ser to eksperter, kan ekspertene som velges være forskjellige på hvert trinn.
Derfor har hvert token tilgang til 47B parametere, men bruker bare 13B aktive parametere under inferens. Mixtral ble trent med en kontekststørrelse på 32 2 tokens, og den overgår eller er lik Llama 70 3.5B og GPT-2 på alle evaluerte benchmarks. Spesielt utkonkurrerer Mixtral Llama 70 XNUMXB på områdene matematikk, kodegenerering og flerspråklighet.
Vi tilbyr også en finjustert modell for sporing av instruksjoner, Mixtral 8x7B – Instruct, som utkonkurrerer GPT-3.5 Turbo, Claude-2.1, Gemini Pro og Llama 2 70B – chat-modell på menneskelige benchmarks.denGrunnleggende modeller og instruksjonsmodeller er utgitt under Apache 2.0-lisensen.

En nærmere titt på Mixtral 8x7Bs struktur viser den sparsomme MoE-designen, som muliggjør bedre bruk av ekspertnettverket. Tilgangsnettverket, et nøkkelelement, sender intelligent spørsmål til de mest passende ekspertene. Dette sikrer at modellen er svært effektiv i å håndtere scenarier som involverer en lang kontekst. Det er denne fokuserte tilnærmingen som gjør Mixtral 8x7B unikt egnet til å utføre oppgaver som krever sunn fornuft, inngående kunnskap om verden og avanserte leseforståelsesferdigheter.

Forskningsoppgave om Mixtral 8x7B

Et annet aspekt ved Mixtral 8x7B som fortjener oppmerksomhet er instruksjonsfinjusteringsprosessen. Ved å skreddersy svar til spesifikke instruksjoner, oppnådde Mixtral Instruct-varianten utmerkede resultater på Mt-testbenken, og demonstrerte dens bransjeledende ytelse. Denne finjusteringsprosessen er et vitnesbyrd om modellens allsidighet og evne til å forstå og utføre komplekse instruksjoner med presisjon.

Sammenlignet med andre modeller skinner Mixtral 8x7B med sin effektivitet og ytelse. Forskning antyder (lenke til forskningsartikler) at Mixtral 8x7B til og med kan utkonkurrere GPT-4s evner, en dristig påstand som fremhever modellens betydelige bidrag på dette området. Ettersom kunstig intelligens-fellesskapet fortsetter å utforske mulighetene til Mixtral 8x7B, er dens bemerkelsesverdige ytelse og åpen kildekode-programvare klar til å ha en varig innvirkning på forskning og applikasjoner innen kunstig intelligens.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket *