Главное о GPT-4o
В американской компании OpenAI представили новую версию ИИ-модели генеративного искусственного интеллекта GPT-4o. Она общается естественным и понятным языком, реагирует на вопросы живыми интонациями и даже умеет смеяться.
- Символ «о» в названии расшифровывается как omni (с лат. «всесторонний» или «мультимодальный»). Это значит, что обновленная модель может работать с картинками, текстом, аудио и видео одновременно, чего не умели предыдущие версии GPT. Например, в чат можно загрузить фотографию, видео или включить камеру, и 4o моментально проанализирует и сможет не только отправить текстовый ответ, но и отреагировать голосом.
- Также у GPT-4o появился мультиязычный голосовой ассистент. Он свободно общается на 50 языках. Скорость реакции на голос — 320 миллисекунд, это сравнимо с реакцией в обычном разговоре между людьми.
- Еще одна новая функция — создание 3D-объектов из текстовых запросов.
- Изменился и интерфейс системы: теперь пользователь будет вести диалог с большой черной точкой. Она меняется в зависимости от происходящего: например, когда робот что-то рассказывает, круг превращается в стилизованные волны звука.
- Специальные приложения для Mac и Windows позволяют интегрировать GPT-4o прямо в рабочий процесс: ИИ-модель может в реальном времени отвечать на вопросы о том, что происходит на экране.
GPT-4o доступна как в платной, так и в бесплатной версии ChatGPT. Но платные подписчики смогут отправлять сообщения в 5 раз длиннее. При превышении лимита у бесплатных пользователей произойдет переключение на GPT-3.5, а у тех, кто заплатил за подписку, — на GPT-4.
Как работает GPT-4o
OpenAI показали конкретные примеры использования возможностей GPT-4o в повседневной жизни. Например, на одном из видео модель поэтапно объяснила школьнику, как решать задачу по математике.
На другом видео GPT-4o по просьбе пользователя сочинила колыбельную и сама ее спела.
Еще на одном видео ИИ-помощница рассказала слепому человеку, что находится вокруг него.
Еще чат-бот смог перевести диалог на разных языках в реальном времени для двух собеседников.
GPT-4o: мнения экспертов, отзывы пользователей
- Многие эксперты отмечают, что OpenAI сосредоточилась на создании более эмоционального ИИ с ярко выраженной «личностью», чего ранее старалась избегать.
- Другие участники отрасли утверждают, что «стремление разработчиков сделать из GPT-4o голосового ассистента — не более чем пиар-ход, так как наличие голоса не означает, что нейросеть действительно «поумнела».
- Информацию о выходе обновленной версии не пропустили и финансовые рынки: на фоне демонстрации «репетиторских» возможностей чат-бота рухнули акции популярного сервиса для изучения иностранных языков Duolingo.
- Некоторые пользователи сравнили новую GPT-версию с нейросетью из фильма 2014 года «Она» и даже испугались этому сходству, предположив, что технологии уже готовы заменить реальные эмоции. По сюжету картины, ИИ-система по имени Саманта, так же как чат-бот 4o, живо беседует с главным героем фильма и реагирует на шутки, в итоге он в нее влюбляется.
- Российские юзеры заметили, что новая модель от OpenAI умеет сочинять стихи с рифмой на русском и вспомнили советский фильм «Москва – Кассиопея».
Когда я смотрел фильм «Москва – Кассиопея», где были машинки-переводчики с других языков сразу голосовым переводом, я думал, что это такая лютая фантастика, что уж при моей жизни такого точно не будет. Мне 44, и вот будущее здесь! Отчего же не сбыться терминатору с его Скайнетом?!
Что нового у других чат-ботов
В марте 2023-го Google открыла бесплатный доступ к обновленной версии модели Gemini 1.5 Pro. Ее главное преимущество — способность анализировать и обобщать большие объемы контента — до 1 млн токенов за один запрос (это около 1,3 тыс. страниц текста в формате А4). Для сравнения максимальное число токенов у GPT-4 — 32 тыс.
В апреле 2024 года Яндекс «выкатил» сразу несколько обновлений. Одно из них — усовершенствованный вариант «Алисы» на основе YandexGPT. ИИ-помощница теперь удерживает контекст беседы и предлагает идеи. Еще компания представила сервис «Нейро» — он способен отвечать на сложные запросы и работать с несколькими источниками информации. Пользователь получает самую актуальную информацию — даже если она появилась всего несколько часов назад.
В этом же месяце «Сбер» представил усовершенствованную версию нейросети Kandinsky — она создает изображения по текстовому описанию на русском и английском языках. Главные особенности обновления — высокая скорость и качество картинки: время одной генерации сократилось в 10 раз, а разрешение можно повысить до 4K.
Фото обложки: OpenAI