Нейросеть OpenAI обрела голос
GPT-4o способна отвечать на вопросы во время разговора со скоростью человека, а также общаться голосовыми сообщениями в режиме реального времени
OpenAI представила новую языковую модель GPT-4о, которая может
генерировать текст, звук и изображения. Компания собирается внедрить ИИ-модель
в свою продукцию.
В OpenAI считают, что GPT-4o сможет улучшить работу чат-бота ChatGPT, в
котором уже есть голосовой режим. Однако новая технология будет направлена на
большее взаимодействие с нейросетью именно как с
помощником — например, его можно будет прервать во время ответа.
Также новая технология может менять интонацию и эмоции в голосе.
Кроме того, языковая модель может реагировать на аудиовход за 232
миллисекунды, а в среднем ей требуется 320 миллисекунд, что аналогично времени
реакции человека в разговоре.
Помимо скорости, GPT-4o показала высокие результаты в способности
рассуждать. ИИ-модель получила 88,7% в бенчмарке COT MMLU, который проверяет
общие знания. Технология по производительности смогла обогнать GPT-4
Turbo.
В том числе в ИИ-модели улучшена работа с изображениями. Она качественнее
анализирует изображения, графики и скриншоты, в отличие от существующих
технологий.
«GPT-4o также прошла обширную внешнюю переподготовку с привлечением
более 70 внешних экспертов в таких областях, как социальная психология,
предвзятость, а также дезинформация, для выявления рисков, которые могут
появиться с появлением новых добавленных модальностей. Мы использовали эти
знания для разработки наших мер по обеспечению информации», — сообщили в
OpenAI.
GPT-4o доступна как в платной, так и в бесплатной версии. При превышении
лимита запроса у бесплатных пользователей произойдет переключение на GPT-3.5, а
у платных — на GPT-4.