Новые возможности ChatGPT: смотрите, слушайте и говорите

OpenAI представила в ChatGPT новые функции голосовой связи и изображений. Эти обновления предоставляют пользователям более интерактивную платформу, обеспечивая голосовое взаимодействие и позволяя пользователям обмениваться визуальными эффектами с помощью ChatGPT. Объединение голоса и изображения расширяет возможности использования ChatGPT.

Например, во время путешествия пользователи могут щелкнуть фотографию достопримечательности и в режиме реального времени обсудить ее значение. Аналогичным образом, дома пользователи могут фотографировать кухонные предметы, чтобы обсудить идеи ужина или получить советы по приготовлению пищи. А в качестве академической поддержки пользователи могут решить математическую задачу и получить помощь.

В течение следующих двух недель ChatGPT расширит эти голосовые и графические функции для своих подписчиков Plus и Enterprise . Голосовая функция будет доступна как на устройствах iOS , так и на Android через настройки, а функция изображения будет доступна повсеместно.

Взаимодействие с голосом

Разговоры с ChatGPT Пользователи теперь могут устно общаться со своим цифровым помощником. Это обеспечивает удобство в пути, удовольствие от рассказанной на ночь сказки или разрешение дискуссий за ужином. Чтобы активировать голос, пользователям необходимо перейти в «Настройки» → «Новые функции» в мобильном приложении и выбрать голосовой чат. Щелчок по значку наушников в правом верхнем углу главного экрана позволит пользователям выбирать один из пяти разных голосов.

Эта голосовая функция основана на современной модели преобразования текста в речь, которая за считанные секунды преобразует текст в реалистичный звук благодаря сотрудничеству с профессиональными озвучщиками. Для транскрипции речи пользователя в текст используется Whisper , собственное программное обеспечение для распознавания речи OpenAI.

Обсуждение изображений в ChatGPT

Пользователи могут обмениваться фотографиями с помощью ChatGPT. Это может быть полезно в таких ситуациях, как диагностика проблем с грилем, планирование питания или интерпретация сложных графиков, связанных с работой. Утилита рисования в мобильном приложении позволяет пользователям выделять определенные части общих изображений.

Чтобы поделиться изображением, пользователи могут нажать значок камеры. Пользователи iOS или Android должны сначала нажать на символ «+». ChatGPT может работать с несколькими изображениями, а пользователи могут использовать функцию рисования для лучшего руководства. Распознавание изображений основано на возможностях мультимодальных GPT-3.5 и GPT-4 , которые используют свои лингвистические навыки для интерпретации широкого спектра визуальных изображений.

Постепенное развертывание новых функций

OpenAI стремится создать AGI, который одновременно обеспечивает безопасность и полезность. Поэтапный подход к выпуску обеспечивает постоянное улучшение и снижение рисков. Это становится критически важным при реализации сложных моделей голоса и видения.

Голосовой чат, разработанный в сотрудничестве с профессиональными актерами озвучивания, имеет множество приложений. Тем не менее, это также создает потенциальные риски неправильного использования. Таким образом, оно ограничено конкретными контекстами. Сотрудничество, например, со Spotify в рамках функции голосового перевода, подчеркивает потенциал этой технологии.

Модели Vision Challenge, основанные на изображениях, несут в себе уникальный набор проблем: от заблуждений до важных интерпретаций. OpenAI провела исчерпывающие тесты и собрала отзывы, чтобы определить параметры ответственного использования.

Целью видения, как и других функций ChatGPT, является поддержка пользователей в их повседневной жизни, и оно наиболее эффективно, когда имеет четкое представление о пользовательском контексте. Это открытие стало результатом сотрудничества OpenAI с Be My Eyes, приложением для помощи слабовидящим. Однако для обеспечения конфиденциальности и точности существует строгий контроль над способностью ChatGPT оценивать и комментировать действия людей.

Обратная связь будет иметь решающее значение для совершенствования этих мер безопасности.

Ограничения модели

Пользователям важно понимать, что, хотя ChatGPT превосходен в определенных доменах, у него есть свои ограничения. Например, несмотря на то, что он умеет транскрибировать английский язык, он дает сбои при работе с некоторыми неанглийскими языками. Пользователям рекомендуется проявлять осторожность в таких сценариях.

Дополнительную информацию о подходах к обеспечению безопасности и сотрудничестве с Be My Eyes можно найти на карточке системы ввода изображений.

Планы расширения

Подписчики Plus и Enterprise могут рассчитывать на доступ к этим инструментам голосовой и графической поддержки в ближайшие две недели. OpenAI стремится предложить их более широкой базе пользователей, включая разработчиков, на следующем этапе.

Следующим шагом может стать добавление инструментов для преобразования текста в видео (таких как Midjourney и Pika Labs ) непосредственно в пользовательский интерфейс ChatGPT.

Нравится прочитанное? Пожалуйста, поделитесь с друзьями:
Чат GPT
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: