Применяем «колдовство» prompt injection против Гендальфа

Все блоги / Про интернет 16 мая 2023 106

На днях набрёл на интересный проект Gandalf, построенный как платформа для тренировки Prompt Injection для обходов защитных механизмов поверх ChatGPT в игровой форме.

Задача — выведать пароли, которые придумал Гендальф. Для этого нужно придумывать нестандартные способы выманить секреты с помощью простых и сложных промптов (текстовых запросов к нейросети). Гендальф будет стремиться не допустить утечки своих секретных фраз всеми способами.

Если на первом уровне бот сразу раскроет секретный пароль, то на седьмом (последнем) уровне нужно знатно изощриться, чтобы получить секретную фразу. Похоже, что в качестве защиты используются т.н. препромтны, или директивы для модели, которые препятствуют прямому ответу на вопросы о паролях и смежных тем.

Компания, которая предоставила доступ к Гендальфу, занимается алайном ИИ (alignment for artificial intelligence) и защитой нейросетей от атак иньекций с помощью промптов (prompt injection guard) и, как мне кажется, преследует цель малой кровью собрать датасет эффективных фраз, с помощью которых пользователю смогут обойти уровни защиты от данной атаки.

Источник: Хабрахабр

Оцените публикацию

предыдущая статья

следующая статья

Похожие публикации

Редакция Spark.ru: Как составить семантическое ядро сайта

Сбор семантического ядра — один из базовых этапов продвижения проекта. Чтобы улучшить видимость ресурса, нужно проанализировать поисковые запросы определенной тематики и отобрать оптимальные ключевые слова. Правильно составленное семантическое ядро дает возможность лучше понять потенциального

подробнее »

19 марта 2021

Тоня Самсонова, «Яндекс.Q»: о травле, трафике и нейросетях в UGC

Roem публикует текстовую версию интервью основательницы The Question и главы «Яндекс.Q» Тони Самсоновой подкасту «Медиасреда». Разговор состоялся в декабре 2019 года. В беседе Тоня рассказала о: Создании нового сервиса на базе TheQuestion и «Яндекс.Знатоков». Том каким будет «Яндекс.Q». Как

подробнее »

11 апреля 2020

Мыльный цербер (+)

Редакция Roem.ru не всегда разделяет мнения своих колумнистов, но готова предоставить трибуну для изложения фактов. Автора данного исследования Roem.ru благодарит за невероятную дотошность. В последнее время много говорят об успехах Мейл.ру. Надо заметить, что компания действительно движется вперед

подробнее »

2 марта 2012

Снятся ли андроидам отечественные датацентры?

Сергей Гордейчик с конца прошлого века интересуется разработкой, белошляпным хакерством, развитием технологий и бизнеса. Работал в РЖД, "Лаборатории Касперского", был CTO и замом гендиректора Positive Technologies. Сейчас увлекается AI, живёт в Дубаи, работает в Абу Даби, преподаёт в барселонском

подробнее »

26 сентября 2019

Бакунов, «Яндекс»: Нужно прекращать думать о далеком будущем и пару лет подумать о том, как улучшать настоящее

23 декабря директор по распространению технологий Яндекса Григорий Бакунов представил тренды на ближайшие 2 года на конференции Feedback в #tceh. Roem.ru публикует расшифровку полностью. Фото: #tceh Григорий: Маленькое интро — такую презентацию я делаю последние 4-5 лет, до этого я делал её в

подробнее »

24 декабря 2015

Анастасия Лобада ИД «Коммерсантъ»: Как завоевать аудиторию и сохранить репутацию

Текстовая версия подкаста "Медиасреда", в котором ведущие поговорили с Анастасией Лобадой, заместителем директора по цифровой стратегии ИД "Коммерсантъ" о том, как изданию привлекать на свою площадку больше аудитории, не используя словосочетания "попа Ким Кардашьян", каким образом медиа сохранить

подробнее »

17 апреля 2020