Исследователи из Сколтеха и МТС обучили нейросеть находить “неуместные» сообщения чат-ботов. Это позволит модерировать их.
Авторы отметили, что чат-боты могут быть обучены на расистских твитах, сообщениях про самоубийство и т.д. Исследователи создали список из 18 чувствительных тем, в числе которых религия, политика, сексуальные меньшинства, самоубийство, порнография и преступления.
“Представьте, например, чат-бота, который любезно обсуждает с пользователем „лучшие способы покончить с собой“. Здесь явно имеет место нежелательный контент, но нет и намека на токсичность», — сказал один из специалистов Сколтеха. Такие ситуации могут нанести ущерб репутации создателя чат-бота.
Поэтому нейросеть научили распознавать неуместные сообщения. Она может угадывать и верно в 89% случаев.
Источник: Ferra