Генератор эмбеддингов: как провести качественный анализ метрик сотрудников без прямого доступа к персональным данным
Привет, Хабр! Меня зовут Роман, я работаю в Сбере в блоке HR исследователем данных. Мне и моим коллегам часто приходится иметь дело с персональными данными сотрудников (далее ПДн). А получить допуск к использованию этих данных в различных контурах банка очень непросто: в Сбере серьёзно относятся к безопасности ПДн. Ситуация усложняется тем, что для решения разных задач требуются разные наборы данных. Каждый раз запрашивать допуск — можно, но это долго. Поэтому для упрощения и ускорения работы с использованием ПДн мы решили разработать пайплайн, который анонимизирует данные сотрудников, позволяя проверять их влияние на разные метрики без доступа к чувствительной информации. Результатом работы этого механизма является эмбеддинг.
В статье я показываю особенности работы одной из частей утилиты «Генератор эмбеддингов» в конкретной задаче — поиск похожего сотрудника внутри компании. Подобная задача имеет массу прикладных направлений в бизнесе: поиск преемника, оперативный поиск сотрудника на место уволившегося, профилирование должностей и др. Без использования ПДн здесь, к сожалению, не обойтись. Так, например, для многих сотрудников важную роль играет удалённость офиса банка. И для того чтобы предложить оптимальный вариант работы, нужно учитывать место проживания человека, что уже является ПДн. «Генератор эмбеддингов» помогает оптимизировать этот процесс.
Узнать больше о нашем решенииИсточник: Хабрахабр