Каннибализация (Cannibalization) |
В маркетинге — сокращение продаж или доли рынка продукта вследствие вывода на рынок другого товара того же производителя, удовлетворяющего те же потребности потребителя. |
Категориальная переменная (Categorial variable) Дискретная переменная |
Переменная, принимающая значения из ограниченного набора категорий. Обычно связана с неисчисляемыми атрибутами — названия, имена, исходы событий (да/нет) и т.д. Синоним — дискретная переменная. |
Категориальные данные (Categorical Data) Факторные данные, Качественные данные, Номинальные данные |
Данные, качественно характеризующие процесс или объект, не имеющие количественного выражения. Обычно — строковые значения из набора категорий (названия, имена) или числа, кодирующие эти категории. Синонимы — факторные данные, качественные данные, номинальные данные. |
Категоризация данных (Data categorization) |
В искусственном интеллекте и анализе данных — задача отнесения наблюдений к одной из групп, называемых категориями. Система-категоризатор формирует обобщающие признаки категорий на основе обучающих примеров. |
Качество данных (Data quality) |
Степень пригодности данных к решению определенной задачи. Приведение сырых данных в соответствие с критериями качества является важнейшей задачей Data Mining и образует целое направление, называемое предобработкой. |
Квадратичная функция ошибки (Quadratic error function) |
В анализе данных и машинном обучении — функция, выражающая зависимость квадрата ошибки оценивания значения выходной переменной аналитической модели (статистической или обучаемой) от входных значений. |
Квантиль распределения (Quantile) |
Значение случайной величины, для которого вероятность попадания в заданный интервал не превышает фиксированного значения. Делит область изменения случайной величины на интервалы, попадания в которые имеют равные вероятности. |
Квантование (Binning) Дискретизация |
Процесс обработки данных, который преобразует непрерывные данные в дискретные путем замены значений диапазонами. Может использоваться для сокращения размерности данных, а именно для уменьшения числа разнообразных значений признака. |
КЛАДР Классификатор адресов |
Онлайн-классификатор адресов ФНС России. Может использоваться для очистки персональных данных от ошибок, допускаемых при внесении адресной информации. В настоящее время заменен на ФИАС. |
Класс (Class) |
В статистике и анализе данных — группа объектов или явлений, обладающих общими свойствами. Выявление классифицирующих правил называется задачей классификации, а процесс распределения объектов по классам — классификацией. |
Классификация (Classification) |
В анализе данных — разбиение множества объектов или наблюдений на заданные группы (классы), внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки. |
Классификация с учетом издержек (Cost-sensitive classification) Классификация, чувствительная к издержкам |
Случай бинарной классификации, когда издержки ошибок классификации не одинаковы. Имеет большое значение в машинном обучении для квалификационных моделей (регрессия, нейросеть) в условиях несбалансированной выборки. |
Классифицирующая функция (Classification function) |
Функция, которая присваивает каждому наблюдению метку класса в соответствии с определенным правилом или зависимостью. Может представлять собой набор правил, например, вида «если, то», или уравнение. |
Кластер (Cluster) |
В статистике — подмножество объектов статистической совокупности, однородных по своим признакам. В анализе данных и машинном обучении — область многомерного пространства, внутри которой расстояние между любыми векторами объектов меньше, чем до любого объекта вне кластера. |
Кластеризация (Clustering) Сегментация, Segmentation |
Объединение объектов или наблюдений в непересекающиеся группы — кластеры, на основе близости значений их признаков. В Data Mining используется для сегментации клиентов и рынков, медицинской диагностики, социальных исследований и т.д. |
Кластерный анализ (Cluster analysis) |
Технология многомерного анализа данных, в основе которой лежит кластеризация. Широко используется для обработки данных, полученных при проведении маркетинговых кампаний, для сегментации рынка и т.д. |
Клиентский опыт (Customer experience) Опыт клиента |
Совокупность когнитивных, эмоциональных, сенсорных и поведенческих реакций клиента на всех этапах его взаимодействия с компанией, знание которых позволяет совершенствовать процессы взаимодействия с потребителями с целью повышения их лояльности. |
Ключевые показатели эффективности (Key Performance Indicators) KPI, КПЭ |
Система числовых показателей для оценивания эффективности деятельности компании в целом, или отдельных её подразделений, работников и направлений деятельности. Позволяют оценить текущее состояние предприятия, определить, насколько далеко оно от оптимального, а также выявить возможности по улучшению. |
Ковариация (Covariation) Корреляционный момент, Ковариационный момент |
В теории вероятностей и математической статистике — мера линейной зависимости двух случайных величин. Широко применяется при формировании инвестиционных и кредитных портфелей, ценообразовании, управлении инвестициями. |
Когорта (Cohort) |
В статистике, маркетинге и демографии — группа объектов, имеющих общие характеристики и связанных с общим событием (например, клиент — с датой рождения или датой первой покупки). |
Когортный анализ (Cohort Analysis) |
Разновидность поведенческого анализа в разрезе групп клиентов, сформированных по какому-либо признаку во времени, называемых когортами. |
Коллекторский скоринг (Collections scoring) Скоринг взысканий |
Аналитический инструмент для оценивания кредитоспособности заёмщиков, допустивших просроченную задолженность по кредиту, на основе их кредитной истории. Результатом коллекторского скоринга является балльная оценка, значение которой отражает вероятность дефолта заёмщика в течение заданного периода. |
Колоночная база данных (Columnar database) Column-oriented database |
База данных, в которой данные группируются не по строкам, а по столбцам. Важное свойство — высокая скорость и гибкость выполнения сложных запросов, из-за чего колоночные СУБД предпочтительнее для OLAP-систем и больших данных. |
Комбинаторный взрыв (Combinatorial explosion) |
Экспоненциальный рост количества вычислительных операций, вариантов состояний или требуемых для решения задачи ресурсов при линейном повышении ее размерности. Примером является поиск ассоциативных правил. |
Конверсионный маркетинг (Conversion Marketing) |
Стратегия, направленная на увеличение числа конверсий — переходов посетителей интернет-ресурсов с рекламой товаров и услуг в реальных покупателей. Одним из важнейших инструментов является A/B-тестирование. |
Конкурентная разведка (Competitive Intelligence) Бизнес-разведка, Деловая разведка |
Сбор и анализ данных из различных источников для выработки управленческих решений, направленных на повышение конкурентоспособности компании. Технологии Data Mining значительно повышают эффективность конкурентной разведки. |
Конкурентное обучение (Competitive learning) |
В анализе данных — методика обучения в сетях Кохонена, при которой искусственные нейроны соперничают друг с другом, чтобы вектор их весов оказался как можно ближе к вектору признаков предъявленного объекта. |
Консолидация (Consolidation) Data consolidation, Консолидация данных |
Процесс извлечения данных из различных источников, преобразования их к единому формату и организации хранения в виде, оптимальном для обработки на аналитической платформе или решения аналитической задачи. |
Контент-анализ (Content analysis) Анализ контента, Анализ содержимого |
Анализ документов и других объектов коммуникативной культуры с целью последующей содержательной интерпретации выявленных закономерностей. Использует методы интеллектуального анализа данных и Text Mining. |
Контроллинг (Controlling) Management control system, MCS |
Система поддержки управления организацией, которая собирает и использует информацию для оценки эффективности различных организационных ресурсов — человеческих, материальных, финансовых, а также организации в целом. |
Контрольная карта Шухарта (Shewhart control chart) Карта Шухарта |
Метод визуального контроля за технологическим, деловым или другим процессом в ходе его выполнения, а также для обнаружения и анализа отклонений процесса. |
Концентратор данных (Data Hub) |
Разновидность корпоративной информационной архитектуры, обеспечивающая консолидацию и централизованное хранение всех данных компании, и поддерживающей обмен ими с другими системами, например бизнес-аналитики и интеллектуального анализа данных. |
Корреляционный анализ (Correlation analysis) |
Совокупность методов обработки данных с целью обнаружения статистической взаимосвязи между случайными величинами или признаками. Один из важных инструментов Data Mining. |
Корреляция (Correlation) |
Статистическая взаимосвязь двух или нескольких случайных величин. Исследования корреляционных зависимостей являются очень важными при построении аналитических моделей. |
Коэффициент вариации (Variation coefficient) |
В статистике — отношение стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Одно из важных применений коэффициента вариации — оценка инвестиционных рисков. |
Коэффициент детерминации (Coefficient of determination) Коэффициент смешанной корреляции, Коэффициент R-квадрат |
Отражает объясняющую способность регрессии. Равен отношению суммы квадратов регрессии к общей вариации. Является статистической мерой согласия. Позволяет определить, насколько уравнение регрессии соответствует реальным данным. |
Коэффициент детерминации МакФаддена (Coefficient of determination McFadden's) Коэффициент R-квадрат |
Коэффициент детерминации МакФаддена и скорректированный коэффициент детерминации МакФаддена применяются для оценки степени соответствия модели регрессии реальным данным (логит, пробит, гомпит регрессий). |
Коэффициент конверсии (Conversion rate) |
В конверсионном маркетинге — отношение числа посетителей интеренет-ресурса, проявивших на нём целевую активность, к общему числу посетителей. Характеризует эффективность ресурса, рекламирующего товары или услуги компании. |
Коэффициент корреляции (Correlation coefficient) |
В математической статистике — показатель, характеризующий силу статистической связи между двумя или несколькими случайными величинами. Широко применяется в анализе данных для отбора переменных в аналитические модели. |
Коэффициент ранговой корреляции Кендалла (Kendall rank correlation coefficient) Kendall rank-order correlation coefficient, Kendall's τ coefficient, Тау-корреляция |
В математической статистике — метод корреляционного анализа, описывающий зависимость между переменными, представленными в порядковой (ранговой) шкале. |
Коэффициент ранговой корреляции Спирмена (Spearman's rank correlation coefficient) Spearman's rank-order correlation coefficient, ро-коэффициент |
Статистический показатель, описывающий зависимость между признаками, представленными в порядковой (ранговой) шкале. Аналогичен коэффициенту корреляции Пирсона, но использует при расчётах не значения признаков, а их ранги. |
Коэффициент регрессии (Coefficient of regression) |
Коэффициенты уравнения регрессии, которые показывают силу и характер влияния независимых переменных на зависимую и характеризуют степень значимости отдельных переменных для повышения точности модели. |
Коэффициент силуэта кластера (Cluster silhouette index) Индекс силуэта, Коэффициент силуэта, Silhouette index, Silhouette coefficient |
Показатель, позволяющий оценить степень соответствия построенной кластерной структуры обучающим данным на основе анализа внутрикластерных и междукластерных расстояний. |
Коэффициент скорости обучения (Learning rate) Параметр скорости обучения |
В машинном обучении — параметр градиентных алгоритмов обучения нейронных сетей, позволяющий управлять величиной коррекции весов на каждой итерации. |
Коэффициент удержания клиентов (Customer Retention rate) Retention Rate, CRR |
Показатель, отражающий способность компании поддерживать долгосрочные отношения с клиентами, а также осуществлять мониторинг эффективности её стратегии по удержанию клиентов. |
Коэффициент эластичности (Elasticity coefficient) |
Характеризует относительное изменение одного признака при относительном изменении другого. В экономике и бизнесе используется для анализа соотношения спроса и цены. |
Кредитный портфель (Credit Portfolio) Loan Portfolio |
Остаток задолженности по всем кредитам, выданным банком, на определенную дату. Для балансировки портфеля по рискам и доходности проводится его анализ. Важнейший инструмент снижения кредитных рисков — скоринговые системы. |
Кредитный скоринг (Credit scoring) |
Анализ данных о заёмщике в потребительском кредитовании по результатам которого тому начисляются балльные оценки, используемые кредитными организациями для поддержки принятия решения о целесообразности выдачи кредита и определении его параметров (суммы, сроков, процентной ставки). |
Кредитоспособность (Creditworthiness) |
Право и возможность для получения кредита. Оценка кредитоспособности заемщика — важнейшее условие минимизации рисков для банка. Наиболее современным инструментом оценки является кредитный скоринг. |
Кривая Лоренца (Lorenz curve) |
В экономической статистике — альтернативный графический способ представления функции распределения случайной величины в приложении к исследованию распределения доходов населения. |
Кривые AR-BR (AR-BR-curves) Approval rate vs. bad rate diagram |
Графический инструмент для оценивания качества скоринговой модели. Показывает связь между процентной долей одобренных заявок и соответствующей долей «плохих» кредитов для каждого значения точки отсечения скоринговой модели. |
Критерий Дарбина-Уотсона (Durbin-Watson statistic) |
Применяется для обнаружения автокорреляции во временных рядах. Также с помощью критерия Дарбина-Уотсона выявляют наличие коинтеграции (продолжительной линейной зависимости) между двумя временными рядами. |
Критерий Колмогорова-Смирнова (Kolmogorov–Smirnov test) K–S test, KS test |
Статистический критерий для определения соответствия эмпирического и теоретического вероятностных распределений, а также сравнения распределений двух выборок. |
Критерий прироста информации (Information Gain) |
В анализе данных и машинном обучении — критерий, используемый для выбора лучшего разбиения подмножеств в узлах деревьев решений в алгоритмах обучения ID3 и С4.5. |
Критерий согласия (Fitting criterion) |
Статистическое правило, по которому принимается или отвергается гипотеза о том, что исследуемая случайная величина подчиняется заданному эмпирическому закону распределения. Имеет важное значение при применении статистических методов анализа. |
Критерий Фишера (F-test) F-критерий |
Статистический критерий для оценки значимости различия дисперсий двух случайных выборок. В Data Mining применяется для оценки значимости регрессионных моделей. |
Критическое значение (Critical value) |
В статистических критериях согласия (например, t-критерии Стьюдента или F-критерии Фишера) — граница области значений критерия, для которых основная гипотеза отвергается. |
Кросс-валидация (Cross-validation) Перекрестная проверка, Rotation estimation |
В машинном обучении — метод формирования обучающего и тестового множеств для обучения аналитической модели в условиях недостаточности исходных данных или неравномерного представления классов. |
Кросс-продажа (Cross-sell) Перекрестные продажи, Cross-selling |
Предложение клиенту совместно с товарами и услугами основного ассортимента дополнительных товаров и услуг. Сочетания совместно приобретаемых товаров эффективно выявляются методами Data Mining, такими как поиск ассоциативных правил. |
Куб (Cube) Сводная таблица, Гиперкуб, Многомерный куб, OLAP-куб, Hypercube |
Многомерный массив данных, используемый в системах оперативной аналитической обработки (OLAP). В основе идеи построения куба лежит модель данных, предполагающая их разделение на измерения и факты. Куб можно рассматривать как многомерное обобщение двумерной таблицы. При этом измерения образуют оси многомерной модели данных (ребра куба), а факты — ячейки внутри куба, расположенные на пересечении соответствующих значений измерений. |