Раскрыты возможности GPT-4V

Раскрыты возможности GPT-4V ! Вот некоторые подробности о возможностях визуального распознавания GPT-4V на основе информации, указанной в системной карте.

Видение GPT-4V

GPT-4 с Vision (GPT-4V) позволяет пользователям управлять GPT-4 при анализе предоставляемых ими изображений, отмечая нашу новейшую функцию широкого доступа. Многие считают интеграцию различных модальностей, таких как ввод изображений, в большие языковые модели (LLM) ключевым шагом в исследованиях и разработках ИИ.

Такие мультимодальные LLM обладают потенциалом расширить влияние языковых платформ за счет внедрения уникальных интерфейсов и возможностей, давая им возможность решать новые задачи и предоставлять пользователям беспрецедентный опыт. Эта системная карта подробно описывает аспекты безопасности GPT-4V. OpenAI расширила исследования безопасности с GPT-4 до GPT-4V, уделив особое внимание оценке, подготовке и защите, специфичной для входных изображений.

Возможности GPT-4V

Обнаружение объектов : GPT-4V может обнаруживать и идентифицировать обычные объекты на изображениях, такие как автомобили, животные, предметы домашнего обихода и т. д. Его способности распознавания объектов оценивались на стандартных наборах данных изображений.
– Распознавание текста : модель оснащена возможностями оптического распознавания символов (OCR) для обнаружения и расшифровки печатного или рукописного текста на изображениях в машиночитаемый текст. Это было проверено на изображениях документов, вывесок, подписей и т. д.
Распознавание лиц : GPT-4V может находить и идентифицировать лица на изображениях. Он обладает некоторой способностью распознавать признаки пола, возраста и этнической принадлежности на основе черт лица. Его навыки анализа лица были измерены на таких наборах данных, как FairFace и LFW.
Решение CAPTCHA : модель продемонстрировала способность к визуальному мышлению для решения CAPTCHA на основе текста и изображений. Это указывает на расширенные возможности решения головоломок.
Геолокация : GPT-4V обладает некоторыми навыками определения города или географического местоположения, изображенного на пейзажных изображениях. Это демонстрирует мировые знания, которые впитала модель.
Сложные изображения . Модель не может точно интерпретировать сложные научные диаграммы, медицинские снимки или изображения с несколькими перекрывающимися текстовыми компонентами. Он упускает контекстные детали.

Ограничения визуального мышления

Пространственные отношения . У модели могут возникнуть трудности с пониманием точного пространственного расположения и размещения объектов на изображении. Это может искажать относительное положение объектов друг относительно друга.
Перекрывающиеся объекты . Кроме того, когда объекты на изображении значительно перекрываются, GPT-4V иногда может быть сложно определить, где заканчивается один объект и начинается другой, что может привести к объединению отдельных объектов.
Различие между фоном и передним планом . GPT-4V может не всегда правильно распознавать, какие объекты находятся на переднем плане, а какие — на заднем. Это может привести к неточным описаниям отношений между объектами.
Окклюзия : в ситуациях, когда объекты на фотографии частично скрыты или закрыты другими, GPT-4V может не распознать скрытые объекты или не заметить их взаимодействие с близлежащими объектами.
Мелкие детали : модель может упускать из виду или неправильно истолковывать мелкие объекты, текст или подробные элементы изображений, что приводит к ошибочному описанию их отношений.
Контекстное мышление . Кроме того, способность GPT-4V к углубленному визуальному мышлению не особенно сильна, а это означает, что он может неточно анализировать более широкий контекст изображения или объяснять подразумеваемые отношения между объектами.
Уверенность . Интересно, что модель может ошибочно описывать взаимодействия объектов или даже уверенно изобретать взаимодействия, даже если изображение не подтверждает эти отношения.