Nowy model Zephyr-7B LLM AI udoskonala Mistral-7B i pokonuje Llamę-2 70B

Świat sztucznej inteligencji odnotował kolejny niezwykły kamień milowy wraz z wypuszczeniem na Hugging Face nowego modelu sztucznej inteligencji Zephyr-7B. Ten innowacyjny model jest dopracowanym następcą oryginalnego modelu Mistral 7B i nawet bez cenzury udało mu się przewyższyć większe modele o 70 miliardów parametrów. Firma ujawniła także obszerny raport techniczny, zawierający szczegółowy przegląd procesu szkolenia modeli. Wypróbuj nowy Zephyr 7B Beta tutaj.

Bezpośrednia optymalizacja preferencji (DPO)

Model Zephyr-7B został przeszkolony przy użyciu strategii trzech kroków. Pierwszym krokiem jest przeprowadzenie destylowanego, nadzorowanego dostrajania przy użyciu zestawu danych Ultra Chat. Ten zbiór danych, zawierający 1,47 miliona wielu okien dialogowych wygenerowanych przez GPT 3.5 Turbo, przeszedł rygorystyczny proces czyszczenia i filtrowania, w wyniku czego pozostało jedynie 200 000 przykładów. Destylowany, nadzorowany proces udoskonalania obejmuje dynamikę modelu nauczyciel-uczeń, przy czym większy model, taki jak GPT 3.5, odgrywa rolę nauczyciela, a Zephyr-7B – ucznia. Model nauczyciela generuje rozmowę opartą na podpowiedziach, która jest następnie wykorzystywana do udoskonalania modelu ucznia, Zephyr-7B.

Zephyr-7B pokonuje Lamę-2 70B

Drugim krokiem w strategii szkoleniowej jest informacja zwrotna AI. W tym kroku wykorzystywany jest zbiór danych Ultra Feedback składający się z 64 000 różnych wiadomości. Cztery różne modele generują odpowiedzi na każdą wiadomość, które są następnie oceniane przez GP4 pod kątem ich uczciwości i użyteczności. Proces ten pomaga udoskonalić reakcje modelu, przyczyniając się w ten sposób do jego ogólnej wydajności.

Ostatnim krokiem strategii szkoleniowej jest wytrenowanie innego modelu przy użyciu utworzonego zbioru danych ze zwycięzcą i przegranym. Ten krok wzmacnia szkolenie modelu Zephyr-7B, zapewniając, że może on generować niezawodne odpowiedzi wysokiej jakości.

Wydajność modelu Zephyr-7B była imponująca, przewyższając wszystkie pozostałe modele 7 miliardów, a nawet większe modele, takie jak modele Falcon 40 miliardów i Llama 2 70 miliardów. Należy jednak pamiętać, że wydajność modelu różni się w zależności od konkretnego zadania. Na przykład gorzej radzi sobie z zadaniami takimi jak kodowanie i matematyka. Użytkownicy powinni zatem wybierać model w oparciu o swoje specyficzne potrzeby, ponieważ model Zephyr-7B może nie być najlepiej dostosowany do wszystkich zadań.

Zefir-7B LLM

Unikalną cechą modelu Zephyr-7B jest jego nieocenzurowany charakter. Chociaż jest w pewnym stopniu nieocenzurowany, ma na celu odradzanie nielegalnych działań, gdy zostanie o to poproszony, zapewniając, że w odpowiedziach przestrzegane są wytyczne etyczne. Aspekt ten ma kluczowe znaczenie dla zachowania integralności i odpowiedzialnego korzystania z modelu.

Model Zephyr-7B można uruchomić lokalnie za pomocą LMStudio lub interfejsu internetowego do generowania tekstu UABA. Dzięki temu użytkownicy mogą korzystać z szablonu w wybranym przez siebie środowisku, poprawiając jego dostępność i łatwość użycia.

Model Zephyr-7B jest ważnym dodatkiem do krajobrazu AI. Unikalna strategia treningowa, imponująca wydajność i nieocenzurowany charakter odróżniają go od innych modeli. Jednak jego wydajność różni się w zależności od wykonywanego zadania, dlatego użytkownicy powinni wybrać model, który najlepiej odpowiada ich konkretnym potrzebom. Aktywny serwer Discord firmy zapewnia platformę do generatywnych dyskusji związanych ze sztuczną inteligencją, wspierając społeczność uczącą się i rozwijającą. Ponieważ dziedzina sztucznej inteligencji stale ewoluuje, ekscytujące będzie zobaczenie, co przyniosą przyszłe iteracje modeli takich jak Zephyr-7B.

Nowy model Zephyr-7B LLM AI udoskonala Mistral-7B i pokonuje Llamę-2 70B

Bezpośrednia optymalizacja preferencji (DPO)

Zephyr-7B pokonuje Lamę-2 70B

Zefir-7B LLM

Czytaj więcej Przewodnik:

Przezroczysty power bank PowerGo Pocket 5 mAh zatwierdzony przez linie lotnicze

BIOSTAR 4800 MHz 16 GB RGB DDR5 DO GIER

Zostaw komentarz Annuler la réponse

Bezpośrednia optymalizacja preferencji (DPO)

Zephyr-7B pokonuje Lamę-2 70B

Zefir-7B LLM

Czytaj więcej Przewodnik:

Może ci się spodobać również

Zostaw komentarz Annuler la réponse