OpenAI разработала CriticGPT , модель, обученную выявлять ошибки в коде GPT-4. Они начинают интегрировать такие модели в конвейер выравнивания RLHF, чтобы помочь людям контролировать ИИ при выполнении сложных задач.
CriticGPT, основанный на GPT-4, пишет критические замечания по ответам ChatGPT, чтобы помочь тренерам-людям обнаружить ошибки во время RLHF.
Что такое CriticGPT?
CriticGPT, модель на основе GPT-4 , была разработана для выявления ошибок в выходных данных кода ChatGPT. Исследования показывают, что лица, использующие CriticGPT для проверки кода ChatGPT, выполняют работу лучше в 60% случаев по сравнению с теми, кто не пользуется такой помощью. Ведутся работы по интеграции таких моделей, как CriticGPT, в конвейер маркировки RLHF, предлагая тренерам явную поддержку ИИ. Эта интеграция направлена на улучшение оценки выходных данных передовых систем ИИ, которые может быть сложно оценить без усовершенствованных инструментов.
Модели серии GPT-4, на которых работает ChatGPT , разработаны для того, чтобы быть полезными и интерактивными посредством «обучения с подкреплением на основе обратной связи с человеком» (RLHF). Критический компонент RLHF включает сбор сравнений, в которых тренеры ИИ оценивают различные ответы ChatGPT по отношению друг к другу.
По мере развития рассуждений и поведения моделей ChatGPT становится более точным, а его ошибки — более тонкими. Эта эволюция затрудняет для тренеров ИИ выявление неточностей, усложняя задачи сравнения, необходимые для RLHF. Это представляет собой фундаментальное ограничение RLHF, поскольку модели становятся более осведомленными, чем любой человек, способный предоставить обратную связь.
Для решения этой проблемы команда CriticGPT обучена писать критические замечания, которые указывают на неточности в ответах ChatGPT.
Предложения CriticGPT не всегда точны, но они существенно помогают тренерам выявлять гораздо больше проблем с помощью ответов, сгенерированных моделью, чем без поддержки ИИ.
Более того, когда люди используют CriticGPT, ИИ расширяет их возможности, что приводит к более тщательной критике, чем когда они работают независимо, и он производит меньше галлюцинаторных ошибок по сравнению с тем, когда модель работает в одиночку. Эксперименты показали, что второй случайный тренер предпочитал критику от команды Human+CriticGPT, чем от отдельного человека, более чем в 60% случаев.
Методы
CriticGPT обучался с использованием Reinforcement Learning from Human Feedback (RLHF), родственного ChatGPT. В отличие от ChatGPT, он подвергался многочисленным входным данным с преднамеренными ошибками, которые ему нужно было критиковать. Тренеры ИИ вручную вводили эти ошибки в код, сгенерированный ChatGPT, и предоставляли пример обратной связи, как если бы они сами обнаружили ошибку. Затем тот же тренер сравнивал различные критики измененного кода, чтобы легко определить, когда критика правильно идентифицировала вставленную ошибку. Эксперименты оценивали способность CriticGPT обнаруживать как вставленные ошибки, так и естественные ошибки ChatGPT, ранее выявленные тренером. Результаты показали, что тренеры предпочитали критику CriticGPT, а не ChatGPT в 63% случаев, связанных с естественными ошибками, отчасти из-за того, что CriticGPT выдавал меньше «придирок» и реже галлюцинировал.
Кроме того, использование дополнительного поиска во время теста против модели вознаграждения за критику позволило генерировать более длинные и полные критики. Эта процедура поиска позволила сбалансировать агрессивность обнаружения проблем в коде и настроить компромисс точности-воспоминания между галлюцинациями и обнаруженными ошибками, что привело к критикам, которые очень полезны для RLHF. Более подробная информация доступна в исследовательской статье.
Ограничения
CriticGPT обучался на относительно коротких ответах ChatGPT. Руководству будущими агентами потребуются методы, помогающие тренерам понимать длинные и сложные задачи. Модели все еще галлюцинируют, и тренеры иногда допускают ошибки маркировки под влиянием этих галлюцинаций. Реальные ошибки часто могут быть распределены по нескольким частям ответа, в то время как текущая работа сосредоточена на ошибках, которые можно указать в одном месте. Будущие усилия должны быть направлены на устранение этих разбросанных ошибок. Помощь CriticGPT ограничена; для чрезвычайно сложных задач или ответов даже эксперту с помощью модели может быть сложно оценить их точно.
Следующие шаги
Согласование все более сложных систем ИИ требует лучших инструментов. Исследования CriticGPT показывают, что применение RLHF к GPT-4 может помочь людям получить лучшие данные RLHF для GPT-4. Существуют планы по дальнейшему расширению этой работы и ее внедрению в практику.