Иерархия измерений (Hierarchy of Dimensions) |
Концепция организации многомерных баз и хранилищ данных, между измерениями которых имеют место иерархические отношения. Иерархия может быть обусловлена особенностями самих данных или необходимостью их агрегирования. |
Иерархия несбалансированная (Unbalanced hierarchy) |
Иерархические структуры, в которых «глубина» ветвей (число уровней иерархии, через которое проходит ветвь) неодинакова — на одном уровне находятся объекты, содержащие информацию различного типа и логики. |
Иерархия сбалансированная (Balanced hierarchy) |
Иерархическая структура, в которой все ветви имеют одинаковую «глубину». Удобна для визуального анализа, поскольку на каждом уровне представлена однотипная информация, а все его элементы логически эквивалентны. |
Избыточные запасы (Overstock) Excessive stock, Excess inventory |
Ситуация, когда фактический запас товара на складе выше, чем его оптимальный или целевой уровень. |
Издержки ошибок классификации (Classification cost error) Стоимость ошибок классификации |
Потери от ошибок классификации, допущенных аналитической моделью. Обычно потери различны для ложно-отрицательных и ложно-положительных ошибок, что необходимо учитывать при построении моделей. |
Измерение (Dimension) Ось, Axis |
Компонент многомерной модели данных, используемой в хранилищах данных и OLAP-технологиях, содержащий значение качественного признака. Качественные данные (товар, клиент, город и т.д.) — это таблицы измерений. |
Индекс Джини (Gini index) |
Статистический показатель, с помощью которого можно описывать характер изменения одной величины относительно изменения другой. Основное применение — оценка неравномерности распределения изучаемого признака. |
Индекс стабильности популяции (Population stability Index) PSI |
Распространённая метрика для мониторинга актуальности текущего состояния аналитических моделей. Значение метрики показывает насколько сильно изменились свойства данных (популяции) с момента построения подели и позволяет сделать вывод о целесообразности дальнейшего использования модели или необходимости её уточнения. |
Интеграция данных (Data Integration) Объединение данных |
В аналитических технологиях — объединение данных из различных источников в один набор, где они хранятся в унифицированном формате и структуре. Задача интеграции обычно решается с помощью хранилищ данных и ETL-процессов. |
Интегрированное планирование (Integrated planning) IBP |
Процесс, объединяющий в единую систему процессы планирования различных функций как внутри компании, так и за её пределами. |
Интеллектуальный анализ данных (Intelligent data analysis) Сложный анализ данных |
Направление информационных технологий, охватывающее весь спектр тем, связанных с извлечением знаний из массивов данных. Методы применяются в бизнес-сценариях — прогнозировании, управлении рисками, сегментации клиентов и т.д. Синоним — Data Mining. |
Интервальные данные (Interval Data) |
В математической статистике — данные, значения которых зафиксированы в отдельных, равноотстоящих друг от друга точках в некоторой шкале (например, времени или температуры). |
Интерквартильный размах (Interquartile range) IQR, Midspread, Middle 50%, Fourth spread, H‑spread |
В описательной статистике мера разброса значений данных относительно медианы. Равен разности между 1-м и 3-м квартилями распредления. |
Интерполяция (Interpolation) Интерполирование |
Метод нахождения неизвестных промежуточных значений функции по имеющемуся дискретному набору ее известных значений. В анализе данных используется для восстановления пропущенных и замены аномальных значений. |
Информационная асимметрия (Information asimmetry) |
Ситуация на рынке, при которой важные сведения доступны только некоторым его участникам. Применение технологий Data Mining позволяет снизить издержки от информационной асимметрии за счет дополнительных знаний. |
Информационная энтропия (Information entropy) Энтропия Шеннона |
В теории информации энтропия — это средняя скорость генерирования значений некоторым случайным источником данных. В анализе данных используется в алгоритмах классификации как мера классовой однородности подмножеств наблюдений. |
Информационный индекс (Information value) Коэффициент IV, Coefficient IV |
Величина, определяющая значимость переменной в модели бинарной классификации. Вычисляется на основе коэффициентов WoE. Является критерием для формирования конечных классов оптимальным образом. |
Информационный критерий Акаике (Akaike's information criterion) AIC |
Критерий для выбора лучшей из статистических моделей, построенных на одном и том же наборе данных и использующих логарифмическую функцию правдоподобия. Позволяет найти компромисс между сложностью модели и ее точностью. |
Информационный критерий Акаике скорректированный (Akaike's information criterion corrected) AICc |
Модифицированный критерий Акаике, который применяется для выборок малого размера, когда отношение числа содержащихся в выборке примеров к числу параметров модели меньше 40. Т.е. вводится поправка на ограниченный объем выборки. |
Информационный критерий Ханнана-Куина (Hannan-Quinn criterion) HQ |
В статистике и анализе данных — критерий для сравнения моделей с разным числом параметров, когда требуется выбрать лучший набор независимых переменных. Лучшая модель имеет наименьшее значение критерия. |
Искусственный интеллект (Artificial intelligence) |
Научное направление, предметом которого является имитация процесса мышления человека с помощью компьютера. Решает задачи аппаратного и программного моделирования интеллектуальных видов человеческой деятельности. |
Исследование данных (Data exploration) |
Процедура обработки данных, предшествующая их анализу с целью поддержки принятия решений. Использует комбинацию автоматизированных и ручных процедур для профайлинга данных, оценки их объема, полноты, корректности и т.д. |