Реальная демонстрация Gemini, переработанная с использованием GPT4 Vision, Whisper и преобразования текста в речь (TTS)

Если вы, как и я, были немного разочарованы, узнав, что демо-версия Google Gemini, опубликованная ранее в этом месяце, была скорее умным изменением, чем технологическим достижением. Вы будете рады узнать, что нам, возможно, не придется слишком долго ждать, прежде чем появится что-то подобное.

Увидев демонстрацию Google Gemini и раскрытие статьи в блоге, раскрывающей его секреты. Жюльен Де Лука задал себе вопрос если бы эксперимент Gemini, представленный Google, мог быть чем-то большим, чем простая демонстрация по сценарию. Затем он провел забавный эксперимент, чтобы изучить возможность взаимодействия ИИ в реальном времени, аналогичного тем, которые были показаны в демо-версии Gemini. Вот некоторые ограничения, которые он наложил на проект, чтобы он соответствовал оригинальной демо-версии Google.

  • Проект должен происходить в режиме реального времени
  • Пользователь должен иметь возможность транслировать видео
  • Пользователь должен иметь возможность разговаривать с помощником, не взаимодействуя с пользовательским интерфейсом.
  • Помощник должен использовать видеоданные для ответа на вопросы пользователя.
  • Ассистент должен ответить, заговорив.

В связи с тем, что Chat GPT Vision в настоящее время может принимать только отдельные изображения, Де Луке приходилось через определенные промежутки времени загружать серию изображений и скриншотов из видео, чтобы GPT могла понять, что происходит. .

«КАБУМ! Теперь у нас есть одно изображение, представляющее видеопоток. Сейчас мы говорим. Мне пришлось настроить системную подсказку, чтобы она «поняла», что это видео. В противном случае он продолжал упоминать «узоры», «полоски» или «сетки». Я также настаивал на временности изображений, чтобы он рассуждал, используя последовательность изображений. Эту систему определенно можно улучшить, но для данного опыта она работает достаточно хорошо»., - объясняет г-н Де Лука. Чтобы узнать больше об этом процессе, посетите сайт Crafters.ai или GitHub.

Создание настоящей демо-версии Google Gemini

AI Джейсон также создал пример, сочетающий технологии GPT-4, Whisper и Text-to-Speech (TTS). Посмотрите видео ниже, чтобы увидеть демонстрацию и узнать больше о том, как создать пример самостоятельно, используя различные технологии искусственного интеллекта в сочетании друг с другом.

Чтобы создать демо-версию, имитирующую оригинальный Gemini с интеграцией GPT-4V, Whisper и TTS, разработчики отправляются в сложный технический путь. Этот процесс начинается с настройки проекта Next.js, который служит основой для интеграции таких функций, как запись видео, транскрипция звука и создание сетки изображений. Внедрение API-вызовов OpenAI имеет решающее значение, поскольку позволяет ИИ общаться с пользователями, отвечать на их вопросы и предоставлять ответы в режиме реального времени.

В основе демонстрации лежит дизайн пользовательского опыта с упором на создание интуитивно понятного интерфейса, который облегчает естественное взаимодействие с ИИ, как если бы это был разговор с другим человеком. К ним относится способность ИИ понимать визуальные сигналы и соответствующим образом реагировать на них.

Перестройка демо-версии Gemini с использованием GPT-4V, Whisper и Text-To-Speech является четким показателем прогресса на пути к будущему, в котором ИИ сможет понимать нас и взаимодействовать с нами посредством нескольких чувств. Эта разработка обещает предложить более естественный и захватывающий опыт. Постоянный вклад и идеи сообщества искусственного интеллекта будут иметь решающее значение для формирования будущего мультимодальных приложений.

Фото предоставлено: Жюльен Де Лука

Читать далее Руководство:

Оставить комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *