[Перевод] Масштабируемая классификация данных для безопасности и конфиденциальности

Все блоги / Про интернет 23 сентября 2020 262

Классификация данных на основе контента — это открытая задача. Традиционные системы предотвращения потери данных (DLP) решают эту проблему путем снятия отпечатков пальцев с соответствующих данных и мониторинга конечных точек для снятия отпечатков пальцев. Учитывая большое количество постоянно меняющихся ресурсов данных в Facebook, этот подход не только не масштабируется, но и неэффективен для определения того, где находятся данные. Эта статья посвящена сквозной системе, построенной для обнаружения чувствительных семантических типов в Facebook в масштабе и автоматического обеспечения хранения данных и контроля доступа. Описанный здесь подход — это наша первая сквозная система конфиденциальности, которая пытается решить эту проблему путем включения сигналов данных, машинного обучения и традиционных методов снятия отпечатков для отображения и классификации всех данных в Facebook. Описанная система эксплуатируется в производственной среде, достигая среднего балла F2 0,9+ по различным классам конфиденциальности при обработке большого количества ресурсов данных в десятках хранилищ. Представляем перевод публикации Facebook на ArXiv о масштабируемой классификации данных для обеспечения безопасности и конфиденциальности на основе машинного обучения. Добро пожаловать

Источник: Хабрахабр

Оцените публикацию

предыдущая статья

следующая статья

Похожие публикации

Новая система распознавания лиц и биометрической идентификации ФБР готова к эксплуатации

Разработка системы Next Generation Identification (NGI) заняла несколько лет и стоила больше миллиарда долларов. Она предназначена для того, чтобы заменить устаревшую систему автоматического распознавания отпечатков пальцев, которая долгое время была главной биометрической базой данных ФБР. Система

подробнее »

16 сентября 2014

Классификация неструктурированных данных – зачем она нужна?

Основная масса хранимых современными компаниями данных является неструктурированной, т.е. это данные, созданные сотрудниками компании, а не, скажем, базой данных или выгрузкой автоматического сервиса. При этом даже при идеально настроенной системе прав доступа к ресурсам нельзя гарантировать, что в

подробнее »

3 марта 2015

Маркирование данных как задача каждого сотрудника

Данных становится все больше. По исследованиям International Data Corporation (международная исследовательская компания) прирост объема хранимой в электронном виде информации составляет порядка 40% в год. При этом отсутствует определенность относительно инструментов обеспечения безопасности,

подробнее »

12 января 2021

Facebook собирает личные данные у перекупщиков?

Как пишет Состав со ссылкой на CNN, facebook оказался в центре очередного скандала с утечкой пользовательских данных. На этот раз социальную сеть обвиняют в сливе данных сомнительной компании Datalogix. Последняя приобрела данные 70 млн. американских домохозяйств, полученные через карты лояльности

подробнее »

25 сентября 2012

Центробанк опубликовал рекомендации по криптографической защите ЕБС

ЕБС. Справа внизу — сканер отпечатков пальцев Российские банки полным ходом подключаются к Единой биометрической системе (ЕБС) и начинают сбор биометрических данных своих клиентов. Информация хранится в единой централизованной БД, которой управляет «Ростелеком». Например, недавно «Сбербанк»

подробнее »

18 февраля 2019

Исключения хранения биометрических данных

Перевод статьи QuantumCryptTM «Enabling biometric technologies to eliminate biometric data storage» Биометрические технологии быстро развиваются Биометрические технологии быстро развиваются. Технология, персонал, процесс и политика направлены на обеспечение безопасности биометрических данных для

подробнее »

2 июля 2020