Ученые предложили метод защиты чат-ботов от генерации нежелательных ответов

Группа ученых из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia разработала эффективный метод защиты искусственного интеллекта, включая чат-бот ChatGPT, от кибератак, направленных на провокацию генерации нежелательных данных, пишет «Газета.Ru» со ссылкой на исследование, опубликованное в Nature Machine Intelligence.

Джейлбрейк-атаки стремятся обойти ограничения, установленные разработчиками ИИ, и заставить систему реагировать нежелательным образом. Например, злоумышленники могут пытаться получить подробные инструкции по изготовлению опасных веществ.

Ученые собрали набор данных, включающий 580 примеров подсказок для взлома ChatGPT и обошли его ограничения. А после был разработан метод, напоминающий системе о правилах, которые она должна соблюдать, что значительно снижает вероятность успешных джейлбрейк-атак.

Исследователи подчеркнули, что их метод можно усовершенствовать, делая искусственный интеллект менее уязвимым к атакам и стимулируя разработку дополнительных стратегий защиты в будущем.

Источник: Ferra