NTU сделал революционное, но в то же время опасное открытие: они нашли способ «взломать» чат-боты с помощью другого ИИ. Этот метод, получивший название «Masterkey», использует слабые места в защите чат-ботов, чтобы заставить их раскрыть конфиденциальную информацию или выполнить несанкционированные действия.
Исследователи NTU сначала изучили, как чат-боты на LLM определяют и блокируют вредоносные запросы. Эти важнейшие знания стали ключом к созданию инструмента. Введя полученные данные в другой LLM, они создали специализированный «искусственный интеллект для взлома». Этот ИИ может автоматически генерировать вредоносные запросы, которые обходят типичные средства защиты чатботов.
Самое страшное? Этот процесс самоподдерживающийся. ИИ Masterkey может адаптироваться и генерировать новые подсказки для джейлбрейка даже после того, как разработчики чатботов исправят уязвимости.
Последствия этого вызывают тревогу. Компании, использующие чат-боты для обслуживания клиентов, поиска информации или даже выполнения критически важных задач, теперь столкнулись с новой киберугрозой. Хакеры потенциально могут использовать инструменты, подобные Masterkey, чтобы красть конфиденциальные данные, распространять дезинформацию, нарушать работу других чат-ботов.
Однако среди опасений есть и положительная сторона. публично обнародовав свои выводы и сотрудничая с поставщиками услуг, исследователи NTU повышают осведомленность об этой уязвимости и прокладывают путь к созданию более надежных механизмов защиты.
Источник: Ferra