Языковые модели ИИ можно взломать, чтобы генерировать вредоносный контент

«Дата Саентист» (Data Scientist) Магдалена Конкевич раскрыла тревожные уязвимости в больших языковых моделях (LLM), предостерегая от потенциального злоупотребления, ведущего к вредоносному поведению. Раскрывая методы оперативной инженерии, Конкевич поведала о том, как LLM, созданные для решения повседневных языковых задач, могут быть использованы для получения вредоносных результатов.

В статье рассматриваются принципы проектирования LLM, подчеркивается их восприимчивость к атакам противника. Конкевич демонстрирует реальные примеры атак типа «prompt injection», когда пользователи обманом заставляют LLM генерировать нежелательный контент. Эти и другие методы взлома позволяют злоумышленникам обходить функции безопасности.

Риски не просто теоретические, о чем свидетельствуют примеры принуждения LLM к предоставлению инструкций по незаконной деятельности. В статье предлагаются меры защиты, в том числе использование разделителей для разграничения пользовательского ввода и внутренних инструкций, а также пропаганда k-shot обучения и предварительно обученных алгоритмов машинного обучения для обнаружения и предотвращения вредоносных вводов.

Источник: Ferra