Вход
Регистрация

Войти c помощью аккаунта

Статьи

Обработка пропусков в данных – часть 1

На практике в реальных данных очень часто встречаются пропуски. Причинами могут быть ошибки ввода данных, сокрытие информации, фрод. Из нашей новой статьи вы узнаете, в каких случаях неправильная обработка пропусков простыми методами приведет вас к ошибкам в моделях и принятии решений.

Различные стратегии сэмплинга в условиях несбалансированности классов

В статье рассматриваются стратегии сэмплинга, которые могут быть применены в случае, когда в наборе данных классы не сбалансированы. Рассмотрены такие подходы, как случайное удаление примеров мажоритарного класса, связи Томека (Tomek links), SMOTE, ASMO и другие.

Очистка персональных данных, часть 2

В статье описаны методы очистки персональных данных, основанные на статистических понятиях. В них приводятся определения и расчеты основных статистических показателей, с помощью которых можно выявлять возможные ошибки, а также вычислять наиболее вероятные значения для их замены.

Очистка персональных данных, часть 1

Большинство компаний собирают персональную информацию о своих клиентах с целью ее дальнейшего анализа и выявления скрытых закономерностей. Полученная база данных содержит ошибки (опечатки, пропуски, некорректные значения...), которые мешают дальнейшей её обработке. Существует ряд методов, позволяющих обнаружить и очистить "загрязненные" данные. В статье рассматриваются наиболее простые из них.

Очистка и разбор текста

Описан подход к решению задачи очистки и разбора текстов. Методика предназначена для работы с частично структурированными данными, такими как прайс-листы, описания деталей/конструкций и прочее. Способ заключается в разбиении информации, представленную в виде произвольного текста, на составные части, например, из описания детали выделить название, изготовителя, ГОСТ, различные характеристики.

Разбор адреса на составляющие

Большое количество сведений о клиентах, имеющееся в базах данных, хранятся в неудобном для аналитической обработки виде, например, адресная информация. Можно ли и нужно ли ее применять для анализа? Да, нужно использовать обязательно. Но без предварительной обработки не получится в виду того, что общепринятого формата записи не существует. Поэтому необходимо его разбить на составляющие.

Быстрое преобразование Фурье

Описание алгоритмов, положенных в основу библиотеки FilteringBase (алгоритм быстрого преобразования Фурье).

Приложения вейвлет-анализа

В статье рассматриваются самые актуальные вопросы применения вейвлетов в наиболее общих задачах, связанных с обработкой информации, таких как очистка сигнала от помех, сжатие данных, выявление кратковременных и глобальных закономерностей, спектральный анализ составляющих сигнала.

Непрерывное вейвлет-преобразование в анализе бизнес-информации

В статье предлагается метод анализа бизнес-данных, позволяющий представить аналитическую информацию в наглядном, удобном для изучения виде и сделать очевидными скрытые особенности бизнес-процесса. Благодаря наглядности представления информации в виде карты коэффициентов вейвлет-преобразования, часто достаточно беглого взгляда, чтобы увидеть влияние наиболее значимых факторов и быстро принять правильное решение.

Калмановская фильтрация

Описание математического аппарата адаптивных фильтров рекурсивного типа (фильтры Калмана).

Страницы