Как взломать антиплагиат? — Безопасность и уязвимости NLP -классификаторов. Часть 2

Все блоги / Про интернет 7 августа 2023 93

Всем привет! Меня зовут Артём Семенов, я занимаюсь пентестами в компании RTM Group.

В первой части данного материала мы говорили о различных методах классификации текста и разобрались с некоторыми техниками для атаки на классификаторы. Сегодня мы возьмемся за NLP-триггеры и стилистические атаки на NLP-классификаторы. Также мы поговорим о том, как машинный текст может быть обнаружен и как можно защитить классификаторы от атак.

Маскировка стиля

Одним из возможных методов атак при обмане классификаторов является маскировка стиля. Так, пользователь может попытаться имитировать стиль письма человека, чтобы обмануть классификатор. Например, добавить стилистические штрихи к тексту, созданному ИИ, которые могут «очеловечить» его, такие как повторения, грамматические ошибки, неполные предложения и т.д.

Очевидно, что основным недостатком метода является изменение текста. Он будет не схож по стилистике с оригиналом. И здесь отметим, что некоторые языковые модели, включая GPT, можно обнаружить при помощи ряда статистических свойств. Например, распределение вероятностей токенов и энтропия при неопределённости модели в выборе следующего слова. Языковые модели с высокой энтропией менее уверенны в своих предсказаниях. Для этого сегодня используется множество метрик:

Источник: Хабрахабр

Оцените публикацию

предыдущая статья

следующая статья

Похожие публикации

Тоня Самсонова, «Яндекс.Q»: о травле, трафике и нейросетях в UGC

Roem публикует текстовую версию интервью основательницы The Question и главы «Яндекс.Q» Тони Самсоновой подкасту «Медиасреда». Разговор состоялся в декабре 2019 года. В беседе Тоня рассказала о: Создании нового сервиса на базе TheQuestion и «Яндекс.Знатоков». Том каким будет «Яндекс.Q». Как

подробнее »

11 апреля 2020

Иван Макаров, Юлия Сапронова: Как журналистам РБК прививали любовь к диджиталу

Аудиоверсию подкаста можно послушать прямо сейчас на сайте Adindex.ru, на Яндекс.Музыке, в подкастах Apple, на SoundCloud, в сообществе Adindex.ru в VK. Текст отредактирован с целью повышения удобочитаемости. Синодов Ю.: Приветствую, дорогие слушатели. В эфире подкаст "Медиасреда", который делает

подробнее »

3 февраля 2020

Анастасия Лобада ИД «Коммерсантъ»: Как завоевать аудиторию и сохранить репутацию

Текстовая версия подкаста "Медиасреда", в котором ведущие поговорили с Анастасией Лобадой, заместителем директора по цифровой стратегии ИД "Коммерсантъ" о том, как изданию привлекать на свою площадку больше аудитории, не используя словосочетания "попа Ким Кардашьян", каким образом медиа сохранить

подробнее »

17 апреля 2020

Бакунов, «Яндекс»: Нужно прекращать думать о далеком будущем и пару лет подумать о том, как улучшать настоящее

23 декабря директор по распространению технологий Яндекса Григорий Бакунов представил тренды на ближайшие 2 года на конференции Feedback в #tceh. Roem.ru публикует расшифровку полностью. Фото: #tceh Григорий: Маленькое интро — такую презентацию я делаю последние 4-5 лет, до этого я делал её в

подробнее »

24 декабря 2015

Расставляем медиасферу по полочкам с Александром Амзиным: подкаст Юрия Синодова и Маши Георгиевской

Приветствую, это Юрий Синодов. У нас сегодня представление нового формата для Roem.ru: это подкасты с участниками медиарынка которые я готовлю в роли директора по развитию обменной сети СМИ2 (где я работаю с апреля 2019-го года). Проект производится вместе с изданием Adindex.ru, я в нём один из

подробнее »

21 октября 2019

Как взломать антиплагиат? — Безопасность и уязвимости NLP -классификаторов. Часть 1

Всем привет! Меня зовут Артём Семенов, я занимаюсь пентестами в компании RTM Group. Известная поговорка гласит: «Словом можно ранить, а словарём – убить». Это особенно актуально для темы, которую мы сегодня рассмотрим, ведь для атак мы будем использовать либо слово, либо огромный текст. В начале

подробнее »

31 июля 2023