Как взломать антиплагиат? — Безопасность и уязвимости NLP -классификаторов. Часть 2

Все блоги / Про интернет 7 августа 2023 93   

 

Всем привет! Меня зовут Артём Семенов, я занимаюсь пентестами в компании RTM Group.

В первой части данного материала мы говорили о различных методах классификации текста и разобрались с некоторыми техниками для атаки на классификаторы. Сегодня мы возьмемся за NLP-триггеры и стилистические атаки на NLP-классификаторы. Также мы поговорим о том, как машинный текст может быть обнаружен и как можно защитить классификаторы от атак.

Маскировка стиля

Одним из возможных методов атак при обмане классификаторов является маскировка стиля. Так, пользователь может попытаться имитировать стиль письма человека, чтобы обмануть классификатор. Например, добавить стилистические штрихи к тексту, созданному ИИ, которые могут «очеловечить» его, такие как повторения, грамматические ошибки, неполные предложения и т.д.

Очевидно, что основным недостатком метода является изменение текста. Он будет не схож по стилистике с оригиналом. И здесь отметим, что некоторые языковые модели, включая GPT, можно обнаружить при помощи ряда статистических свойств. Например, распределение вероятностей токенов и энтропия при неопределённости модели в выборе следующего слова. Языковые модели с высокой энтропией менее уверенны в своих предсказаниях. Для этого сегодня используется множество метрик:

Читать далее
  • Оцените публикацию
  • 0

Похожие публикации

@
  • bowtiesmilelaughingblushsmileyrelaxedsmirk
    heart_eyeskissing_heartkissing_closed_eyesflushedrelievedsatisfiedgrin
    winkstuck_out_tongue_winking_eyestuck_out_tongue_closed_eyesgrinningkissingstuck_out_tonguesleeping
    worriedfrowninganguishedopen_mouthgrimacingconfusedhushed
    expressionlessunamusedsweat_smilesweatdisappointed_relievedwearypensive
    disappointedconfoundedfearfulcold_sweatperseverecrysob
    joyastonishedscreamtired_faceangryragetriumph
    sleepyyummasksunglassesdizzy_faceimpsmiling_imp
    neutral_faceno_mouthinnocent

Архив публикаций