Частотный vs байесовский подходы: оцениваем True Positive Rate при неполной разметке данных
Привет, Хабр! Меня зовут Алан Савушкин (@naive_bayes), я — дата-сайентист в команде Data Science & Big Data «Лаборатории Касперского», и мы отвечаем в том числе за фильтрацию нерелевантных алертов при телеметрии киберугроз в проекте Kaspersky Managed Detection and Response (MDR). В данной статье...
Data Fusion Contest 2023. Для опыта и не только… Соревнование от ВТБ с призовым фондом в 2 млн рублей
Я, как новичок, наблюдаю за всем происходящим вокруг, и замечаю, что тренд на IT-специальности огромный. Множество курсов заманивают обещаниями о работе с высокой зарплатой, но спустя полгода после окончания курсов вы понимаете, что на "рынке" полно таких же как вы без опыта, а всем нужны...
Генератор эмбеддингов: как провести качественный анализ метрик сотрудников без прямого доступа к персональным данным
Привет, Хабр! Меня зовут Роман, я работаю в Сбере в блоке HR исследователем данных. Мне и моим коллегам часто приходится иметь дело с персональными данными сотрудников (далее ПДн). А получить допуск к использованию этих данных в различных контурах банка очень непросто: в Сбере серьёзно относятся к...
Alexa и Echo — на выход. Идут сокращения, бизнес-модель не оправдалась. «Салюту», «Марусе», прочим — приготовиться
Голосовые ассистенты были любимым проектом лично Безоса. Он в них отчаянно верил, тратил любые бюджеты. А компания жгла прилично - в 2018 убыток был $5 млрд, в 2022 уже $10 млрд. Подразделение набрало больше 10 000 человек. Безос выверял каждую рекламную кампанию сам.Но теперь он прекратил следить...
Переход от Платформы работы с данными к Платформе конфиденциальных вычислений
Привет, Хабр! Меня зовут Александр, в компании oneFactor я являюсь руководителем платформенных продуктов, и одна из моих целей — это развитие платформы конфиденциальных вычислений. Именно о них мы и будем говорить в данной статье, пройдя путь по преобразованию Платформы работы с данными в Платформу...
Игры для самых больших: песочница данных и её безопасность
Говорят, что большие данные — новая нефть. В этом есть глубокая аналогия: каждый день большим данным находят всё новые и новые применения. Но есть и отличие: из двух бочек нефти можно сделать то же, что и из одной, только в два раза больше. А вот объединив два датасета, порой можно обнаружить...
[recovery mode] SIEM-SIEM, откройся: какие инструменты наиболее эффективно анализируют цифровую инфраструктуру
Волна кибератак нарастает, две трети из них совершаются с целью получения данных. Как найти белые пятна в средствах защиты информации (СЗИ) и навести порядок в инфраструктуре, как помогает в решении этих задач Security Information and Event Management (SIEM), раскрыл руководитель отдела консалтинга...
Гражданская разведка разрушила государственную монополию на расследования
Мы уже рассказывали о Bellingcat и других детективных агентствах, которые осуществляют разведку по открытым источникам (OSINT), например, обратный поиск изображений в Яндексе, сканируя утёкшие базы с приватной информацией (паспорта, мобильные телефоны, авиабилеты) и др. Это нужно для проведения...
ИБП для медицинских учреждений
В отделениях реанимации жизни пациентов зависят не только от компетентности врачей и наличия лекарств, но и от качества электропитания. Перебои не должны сказываться на работе аппаратов искусственного дыхания и другого оборудования. По этой причине к электроснабжению медицинских объектов...
Каждый пятый абонент «Билайна» уехал из Москвы, каждый десятый — из Санкт-Петербурга
Директор по Digital-продуктам группы Veon Джордж Хелд ушёл в Veon из принадлежащего ей же "Вымпелкома" и рассказал о пандемийных изменениях в поведении абонентов и взглядах компании на этичное применение новых технологий. В Билайне заметили, что благодаря удалёнке люди активно уезжают из больших...
Обдурить Шаи-Хулуда
Привет, Хабр! Сегодня поговорим о «больших данных» в кибербезопасности, а точнее, о том насколько легко - или сложно - обойти защиту, использующую Big Data. Иначе говоря, как надурить и объегорить передовые системы обнаружения угроз, мимо всевидящего ока которых, как утверждают маркетологи, лишний...
Отказоустойчивость бесперебойных систем модульной архитектуры: «CENTIEL» и «EATON»
Среди всего многообразия систем бесперебойного питания самыми надежными принято считать «on-line» системы с модульной архитектурой. В чём же их преимущества? Узнать подробнее....
Ещё один шаг в сторону open source: как и почему мы внедрили Arenadata DB
Привет, Хабр! Меня зовут Станислав Маскайкин, я архитектор аналитических систем ВТБ. Сегодня я расскажу о том, почему мы перевели нашу систему подготовки отчётности с Oracle SuperCluster на российскую Arenadata DB. Как мы выбирали решение, почему не взяли чистый опенсорс, а также о некоторых...
Новые возможности анализа табличных данных с алгоритмами машинного обучения в Elastic
Elastic stack, также известный как ELK Stack (аббревиатура из программных компонентов: Elasticsearch, Kibana и Logstash), — это платформа построения озера данных с возможностью аналитики по ним в реальном масштабе времени. В настоящее время широко применяется для обеспечения информационной...
Определение объёма кластера Elasticsearch и тестирование производительности в Rally
В этой статье мы разберёмся с основными подходами к сайзингу Elasticsearch, покажем сравнения бенчмарков кластера при загрузке логов и метрик. А разница там заметная. Надеемся, вам это поможет с определением объёма кластера Elasticsearch и расшифровкой того самого «it depends». В некотором роде,...
Brave new world
О дивный новый мир! Как ты прекрасен. Как же ошибался Джордж Оруэлл и как был прав Олдос Хаксли. Никто никого не принуждает ни к чему. Народ сам ломится табунами для того, чтобы получить новую пилюлю и слить всю информацию о себе кому попало. И конечно, тебя-то, хабрачеловек, это не будет касаться....
[Перевод] Безопасность hdfs hive hbase используя knox и ranger
Apache HDFS (Hadoop Distributed File System) — файловая система, предназначенная для хранения файлов больших размеров, поблочно распределённых между узлами вычислительного кластера. Apache Hive — система управления базами данных на основе платформы Hadoop. Apache HBase — СУБД класса NoSQL с...
ЦОДД заказал за 153 млн систему отслеживания москвичей по MAC-адресам, которая не должна была работать
Москва может свернуть проект по запуску на остановках столицы аппаратно-программных комплексов (АПК), собирающих со смартфонов пешеходов MAC-адреса (уникальные номера устройств) для анализа пассажиропотока, передаёт “Коммерсант” слова своего источника в мэрии. Проблема в том, что в последних...
Назад