OpenAI представила в ChatGPT новые функции голосовой связи и изображений. Эти обновления предоставляют пользователям более интерактивную платформу, обеспечивая голосовое взаимодействие и позволяя пользователям обмениваться визуальными эффектами с помощью ChatGPT. Объединение голоса и изображения расширяет возможности использования ChatGPT.
Например, во время путешествия пользователи могут щелкнуть фотографию достопримечательности и в режиме реального времени обсудить ее значение. Аналогичным образом, дома пользователи могут фотографировать кухонные предметы, чтобы обсудить идеи ужина или получить советы по приготовлению пищи. А в качестве академической поддержки пользователи могут решить математическую задачу и получить помощь.
В течение следующих двух недель ChatGPT расширит эти голосовые и графические функции для своих подписчиков Plus и Enterprise . Голосовая функция будет доступна как на устройствах iOS , так и на Android через настройки, а функция изображения будет доступна повсеместно.
Взаимодействие с голосом
Разговоры с ChatGPT Пользователи теперь могут устно общаться со своим цифровым помощником. Это обеспечивает удобство в пути, удовольствие от рассказанной на ночь сказки или разрешение дискуссий за ужином. Чтобы активировать голос, пользователям необходимо перейти в «Настройки» → «Новые функции» в мобильном приложении и выбрать голосовой чат. Щелчок по значку наушников в правом верхнем углу главного экрана позволит пользователям выбирать один из пяти разных голосов.
Эта голосовая функция основана на современной модели преобразования текста в речь, которая за считанные секунды преобразует текст в реалистичный звук благодаря сотрудничеству с профессиональными озвучщиками. Для транскрипции речи пользователя в текст используется Whisper , собственное программное обеспечение для распознавания речи OpenAI.
Обсуждение изображений в ChatGPT
Пользователи могут обмениваться фотографиями с помощью ChatGPT. Это может быть полезно в таких ситуациях, как диагностика проблем с грилем, планирование питания или интерпретация сложных графиков, связанных с работой. Утилита рисования в мобильном приложении позволяет пользователям выделять определенные части общих изображений.
Чтобы поделиться изображением, пользователи могут нажать значок камеры. Пользователи iOS или Android должны сначала нажать на символ «+». ChatGPT может работать с несколькими изображениями, а пользователи могут использовать функцию рисования для лучшего руководства. Распознавание изображений основано на возможностях мультимодальных GPT-3.5 и GPT-4 , которые используют свои лингвистические навыки для интерпретации широкого спектра визуальных изображений.
Постепенное развертывание новых функций
OpenAI стремится создать AGI, который одновременно обеспечивает безопасность и полезность. Поэтапный подход к выпуску обеспечивает постоянное улучшение и снижение рисков. Это становится критически важным при реализации сложных моделей голоса и видения.
Голосовой чат, разработанный в сотрудничестве с профессиональными актерами озвучивания, имеет множество приложений. Тем не менее, это также создает потенциальные риски неправильного использования. Таким образом, оно ограничено конкретными контекстами. Сотрудничество, например, со Spotify в рамках функции голосового перевода, подчеркивает потенциал этой технологии.
Модели Vision Challenge, основанные на изображениях, несут в себе уникальный набор проблем: от заблуждений до важных интерпретаций. OpenAI провела исчерпывающие тесты и собрала отзывы, чтобы определить параметры ответственного использования.
Целью видения, как и других функций ChatGPT, является поддержка пользователей в их повседневной жизни, и оно наиболее эффективно, когда имеет четкое представление о пользовательском контексте. Это открытие стало результатом сотрудничества OpenAI с Be My Eyes, приложением для помощи слабовидящим. Однако для обеспечения конфиденциальности и точности существует строгий контроль над способностью ChatGPT оценивать и комментировать действия людей.
Обратная связь будет иметь решающее значение для совершенствования этих мер безопасности.
Ограничения модели
Пользователям важно понимать, что, хотя ChatGPT превосходен в определенных доменах, у него есть свои ограничения. Например, несмотря на то, что он умеет транскрибировать английский язык, он дает сбои при работе с некоторыми неанглийскими языками. Пользователям рекомендуется проявлять осторожность в таких сценариях.
Дополнительную информацию о подходах к обеспечению безопасности и сотрудничестве с Be My Eyes можно найти на карточке системы ввода изображений.
Планы расширения
Подписчики Plus и Enterprise могут рассчитывать на доступ к этим инструментам голосовой и графической поддержки в ближайшие две недели. OpenAI стремится предложить их более широкой базе пользователей, включая разработчиков, на следующем этапе.
Следующим шагом может стать добавление инструментов для преобразования текста в видео (таких как Midjourney и Pika Labs ) непосредственно в пользовательский интерфейс ChatGPT.