Новое обновление ChatGPT добавляет поддержку зрения, голоса и аудио. OpenAI, ведущая исследовательская лаборатория искусственного интеллекта, ответственная за создание ChatGPT, намерена внедрить голосовые и графические возможности в свою популярную языковую модель.

Это значительное обновление ChatGPT позволит пользователям вести голосовые разговоры и показывать изображения модели искусственного интеллекта для взаимодействия, что ознаменует значительный шаг вперед в эволюции коммуникации с использованием искусственного интеллекта.

Внедрение голосовых и графических функций в ChatGPT призвано обеспечить более интуитивно понятный интерфейс и расширить возможности использования искусственного интеллекта в повседневной жизни. Например, пользователи могли бы обсуждать достопримечательности, планировать питание или обращаться за помощью с домашним заданием, используя эти новые функции.

Первоначально приложение будет доступно пользователям ChatGPT Plus и ChatGPT Enterprise в течение следующих двух недель, при этом голос будет доступен на iOS и Android, а изображения — на всех платформах.

Функция голосовой связи основана на новой модели преобразования текста в речь и системе распознавания речи Whisper от OpenAI с открытым исходным кодом. Это позволяет пользователям вступать в переписку с искусственным интеллектом, создавая более интерактивный и привлекательный пользовательский опыт. Пользователи могут выбирать из пяти различных голосов, созданных в сотрудничестве с профессиональными актерами озвучивания, добавляя уровень персонализации взаимодействиям с искусственным интеллектом.

Теперь ChatGPT может видеть, слышать и говорить

Функция изображений, с другой стороны, позволяет пользователям показывать одно или несколько изображений в ChatGPT, который затем может анализировать и обсуждать изображения. Это понимание изображений обеспечивается мультимодальными GPT-3.5 и GPT-4, которые применяют навыки языкового рассуждения к широкому спектру изображений. Эта функция может быть особенно полезна в сценариях, где важен визуальный контекст, например, при обсуждении произведения искусства или определении достопримечательности.

Новое обновление ChatGPT в сентябре 2023

OpenAI внедряет эти функции постепенно в рамках стратегии по совершенствованию мер по снижению рисков и подготовке к более мощным системам в будущем. Новая голосовая технология сопряжена с потенциальными рисками, такими как выдача себя за другого или мошенничество, поэтому она используется специально для голосового чата. Модели, основанные на зрении, также создают проблемы, такие как галлюцинации или неправильное толкование, которые OpenAI протестировал на предмет риска перед внедрением.

При разработке функции vision OpenAI сотрудничала с Be My Eyes, мобильным приложением для слепых и слабовидящих людей. Это сотрудничество помогло OpenAI понять использование и ограничения функции vision, сделав ее максимально полезной и доступной. Также были приняты технические меры, чтобы ограничить способность ChatGPT анализировать людей и делать прямые заявления о них, чтобы уважать частную жизнь отдельных лиц.

Будь Моими глазами

OpenAI прозрачно относится к ограничениям модели, не поощряя рискованные варианты использования без надлежащей проверки и советуя пользователям, не владеющим английским языком, не использовать ChatGPT для транскрипции. Такая прозрачность имеет решающее значение для обеспечения того, чтобы пользователи понимали возможности и ограничения искусственного интеллекта и использовали его ответственно.

После первоначального внедрения для пользователей Plus и Enterprise доступ к новым функциям будет расширен для других групп пользователей, включая разработчиков. Такой подход к поэтапному внедрению позволяет OpenAI собирать отзывы и вносить необходимые коррективы, прежде чем сделать функции широко доступными.

Внедрение OpenAI голосовых и графических функций в ChatGPT представляет собой значительный прогресс в области коммуникации с использованием искусственного интеллекта. Хотя эти функции открывают новые возможности для взаимодействия с пользователем, они также сопряжены с потенциальными рисками и проблемами.

Стратегия постепенного внедрения OpenAI, сотрудничество с Be My Eyes и прозрачность в отношении ограничений модели демонстрируют продуманный подход к управлению этими рисками, одновременно расширяя границы возможностей искусственного интеллекта.