Частотный vs байесовский подходы: оцениваем True Positive Rate при неполной разметке данных

Все блоги / Про интернет 4 апреля 2023 96

Привет, Хабр! Меня зовут Алан Савушкин (@naive_bayes), я — дата-сайентист в команде Data Science & Big Data «Лаборатории Касперского», и мы отвечаем в том числе за фильтрацию нерелевантных алертов при телеметрии киберугроз в проекте Kaspersky Managed Detection and Response (MDR).

В данной статье хочу с вами поделиться, как мы решали задачу построения оценки TPR (True Positive Rate) в условиях неполной разметки данных. Может возникнуть вопрос: а что там оценивать? TPR по своей сути всего лишь доля, а построить доверительный интервал на долю легче простого.

Спорить не буду, но добавлю, что из статьи вы узнаете:

— Что даже в использовании такого интервала есть свои условия.

— Как на основе серии проверки гипотез получить доверительный интервал, используя под капотом гипергеометрическое распределение. А можно ли использовать биномиальное? Спойлер: можно, но тогда важно понимать, на какой вопрос вы отвечаете, пользуясь такой оценкой. Здесь мы рассмотрим задачу с частотной точки зрения.

— Что будет, если скрестить биномиальное распределение с бета‑распределением, и как этот гибрид используется в качестве сопряженного априорного распределения для гипергеометрического распределения. А здесь мы рассмотрим задачу с байесовской точки зрения.

— И, собственно, в чем прикол этой неполной разметки данных, и как мы докатились до всего перечисленного выше.

Тизер получился обширным, и если вам стало интересно — что ж, тогда давайте разбираться.

Источник: Хабрахабр

Оцените публикацию

предыдущая статья

следующая статья

Похожие публикации

Иллюзии и ловушки стартапов

Выступление Игоря Ашманова на iForum в Киеве 01.04.2011 Здравствуйте. Меня зовут Игорь Ашманов, я из Москвы. (Да, поближе, я понял, да.) Вот поскольку сама секция называется таким провокационным способом - то есть про всякие косяки, ошибки, ловушки и так далее, - ну и я вот спросил Сашу

подробнее »

15 апреля 2011

Иван Макаров, Юлия Сапронова: Как журналистам РБК прививали любовь к диджиталу

Аудиоверсию подкаста можно послушать прямо сейчас на сайте Adindex.ru, на Яндекс.Музыке, в подкастах Apple, на SoundCloud, в сообществе Adindex.ru в VK. Текст отредактирован с целью повышения удобочитаемости. Синодов Ю.: Приветствую, дорогие слушатели. В эфире подкаст "Медиасреда", который делает

подробнее »

3 февраля 2020

Анастасия Лобада ИД «Коммерсантъ»: Как завоевать аудиторию и сохранить репутацию

Текстовая версия подкаста "Медиасреда", в котором ведущие поговорили с Анастасией Лобадой, заместителем директора по цифровой стратегии ИД "Коммерсантъ" о том, как изданию привлекать на свою площадку больше аудитории, не используя словосочетания "попа Ким Кардашьян", каким образом медиа сохранить

подробнее »

17 апреля 2020

Тоня Самсонова, «Яндекс.Q»: о травле, трафике и нейросетях в UGC

Roem публикует текстовую версию интервью основательницы The Question и главы «Яндекс.Q» Тони Самсоновой подкасту «Медиасреда». Разговор состоялся в декабре 2019 года. В беседе Тоня рассказала о: Создании нового сервиса на базе TheQuestion и «Яндекс.Знатоков». Том каким будет «Яндекс.Q». Как

подробнее »

11 апреля 2020

Расставляем медиасферу по полочкам с Александром Амзиным: подкаст Юрия Синодова и Маши Георгиевской

Приветствую, это Юрий Синодов. У нас сегодня представление нового формата для Roem.ru: это подкасты с участниками медиарынка которые я готовлю в роли директора по развитию обменной сети СМИ2 (где я работаю с апреля 2019-го года). Проект производится вместе с изданием Adindex.ru, я в нём один из

подробнее »

21 октября 2019

Сергей Марин: Большие данные в рекламе и медиа. Что умеют технологии и как это работает

Большие данные давно стали неотъемлемой частью маркетинга, но они до сих пор окружены мифами. Может ли внедрение big data поднять продажи или компаниям лучше полагаться на свои коммерческие отделы, действительно ли сегодня маркетологи знают о своих потребителях все и заменит ли рекламистов и

подробнее »

4 мая 2020