Mistral AI Mixtral 8x7B экспертная модель искусственного интеллекта показала впечатляющие результаты

Mistral AI недавно представила инновационную модель экспертной смеси, которая произвела фурор в области искусственного интеллекта. Эта новая модель, которая теперь свободно доступна через Perplexity AI, была доработана с помощью сообщества открытого исходного кода, что делает ее сильным конкурентом хорошо зарекомендовавшей себя модели GPT-3.5. Главной особенностью модели является ее способность обеспечивать высокую производительность, потенциально требуя всего 4 ГБ видеопамяти, благодаря передовым методам сжатия, которые сохраняют ее эффективность. Это достижение предполагает, что даже люди с ограниченными аппаратными ресурсами вскоре смогут получить доступ к передовым возможностям искусственного интеллекта. Mistral AI рассказывает больше о новом Mixtral 8x7B:

«Сегодня команда с гордостью представляет Mixtral 8x7B, высококачественную модель Sparse Expert Mixture (SMoE) с открытыми грузами. Он распространяется под лицензией Apache 2.0. Mixtral превосходит Llama 2 70B в большинстве тестов, обеспечивая в 6 раз более быстрый вывод. Это самая мощная модель с открытым весом с разрешительной лицензией и лучшая модель в целом с точки зрения соотношения цены и производительности. В частности, он соответствует GPT3.5 или превосходит его по большинству стандартных тестов».

Выпуск Mixtral 8x7B от Mistral AI знаменует собой значительный прогресс в области искусственного интеллекта, особенно в разработке моделей разреженной экспертной смеси (SMoE). Эта модель Mixtral 8x7B представляет собой высококачественный SMoE с открытыми грузами, лицензированный под лицензией Apache 2.0. Он превосходит Llama 2 70B по большинству тестов, обеспечивая при этом скорость вывода в шесть раз быстрее. Это делает Mixtral первой моделью открытого веса с разрешительной лицензией, и она очень эффективна с точки зрения затрат и производительности, соответствуя или даже превосходя GPT3.5 по стандартным тестам.

Mixtral 8x7B обладает несколькими впечатляющими возможностями. Он может управлять контекстом из 32 тысяч токенов и поддерживает несколько языков, включая английский, французский, итальянский, немецкий и испанский. Его производительность генерации кода превосходна, и его можно доработать, чтобы использовать в качестве модели отслеживания инструкций, получив оценку 8,3 на MT-Bench.

Модель Mistral AI MoE Expert Mix

Результаты, полученные с помощью модели Mistral AI, — это не просто впечатляющая статистика; они представляют собой значительный прогресс, который может превзойти производительность существующих моделей, таких как GPT-3.5. Потенциальный эффект от создания бесплатного доступа к такому мощному инструменту огромен, и это захватывающая перспектива для тех, кто заинтересован в использовании ИИ для различных приложений. Особого внимания заслуживает эффективность модели на сложных наборах данных, таких как H SWAG и MML. Эти критерии необходимы для оценки сильных сторон модели и определения областей для улучшения.

Архитектура Микстраля особенно примечательна. Это разреженная экспертная смешанная сеть, предназначенная только для декодера, которая использует блок прямой связи, выбирающий 8 отдельных групп параметров. Сеть маршрутизаторов на каждом уровне выбирает две группы для обработки каждого токена, аддитивно объединяя их результаты. Хотя Mixtral имеет в общей сложности 46,7 миллиардов параметров, он использует только 12,9 миллиардов параметров на каждый токен, что позволяет ему поддерживать скорость и экономическую эффективность меньшей модели. Эта модель предварительно обучена на данных из открытой сети, что позволяет одновременно обучать экспертов и маршрутизаторов.

По сравнению с другими моделями, такими как семейство Llama 2 и GPT3.5, Mixtral эквивалентен этим моделям или превосходит их в большинстве тестов. Кроме того, он демонстрирует большую правдивость и меньшую предвзятость, о чем свидетельствуют его результаты в тестах TruthfulQA и BBQ, где он показывает более высокий процент правдивых ответов и демонстрирует меньшую предвзятость, чем Llama 2.

Посмотрите это видео на YouTube.

Кроме того, помимо оригинальной модели, Mistral AI также выпустила Mixtral 8x7B Instruct. Эта версия была оптимизирована посредством контролируемой тонкой настройки и прямой оптимизации предпочтений (DPO) для точного отслеживания инструкций, получив оценку 8,30 на MT-Bench. Это делает его одной из лучших моделей с открытым исходным кодом, сравнимой по производительности с GPT3.5. Можно попросить модель исключить определенные результаты для приложений, требующих высокого уровня модерации, продемонстрировав ее гибкость и адаптируемость.

Для поддержки развертывания и использования Mixtral в проект vLLM были внесены изменения, включающие ядра CUDA Megablocks для эффективного вывода. Кроме того, Skypilot позволяет развертывать конечные точки vLLM в облачных экземплярах, улучшая доступность и простоту использования Mixtral в различных приложениях.

Разработка и обучение ИИ

Процесс обучения и настройки модели, включающий наборы обучающих данных, играет решающую роль в ее успехе. Эти наборы данных предназначены для улучшения способности модели понимать и следовать инструкциям, что делает ее более удобной и эффективной. Постоянный вклад сообщества разработчиков программного обеспечения с открытым исходным кодом необходим для дальнейшего развития модели. Их приверженность проекту гарантирует, что модель остается актуальной и продолжает совершенствоваться, воплощая дух коллективного прогресса и обмена знаниями.

Хотя мы с нетерпением ждем более усовершенствованных версий и обновлений Mistral AI, модель экспертного смешивания уже стала важной разработкой. При постоянной поддержке и развитии у него есть потенциал переопределить стандарты производительности ИИ.

Модель экспертной смеси Mistral AI представляет собой заметный прогресс в сфере искусственного интеллекта. Благодаря отличным результатам тестов производительности, бесплатной доступности через Perplexity AI и поддержке со стороны специального сообщества разработчиков ПО с открытым исходным кодом, эта модель имеет все шансы оказать долгосрочное влияние. Возможность запускать его всего с 4 ГБ видеопамяти открывает захватывающие перспективы для более широкого доступа к передовым технологиям искусственного интеллекта. Выпуск Mixtral 8x7B представляет собой значительный прогресс в области искусственного интеллекта, особенно в разработке эффективных и мощных SMoE. Его производительность, универсальность, а также достижения в области обработки предвзятости и достоверности делают его заметным дополнением к технологическому ландшафту искусственного интеллекта.

Фото предоставлено: Mistral AI

Читать далее Руководство:

Теги:

Оставить комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *