Название/Синоним Описание
Каннибализация (Cannibalization) В маркетинге — сокращение продаж или доли рынка продукта вследствие вывода на рынок другого товара того же производителя, удовлетворяющего те же потребности потребителя.
Категориальная переменная (Categorial variable) Дискретная переменная Переменная, принимающая значения из ограниченного набора категорий. Обычно связана с неисчисляемыми атрибутами — названия, имена, исходы событий (да/нет) и т.д. Синоним — дискретная переменная.
Категориальные данные (Categorical Data) Факторные данные, Качественные данные, Номинальные данные Данные, качественно характеризующие процесс или объект, не имеющие количественного выражения. Обычно — строковые значения из набора категорий (названия, имена) или числа, кодирующие эти категории. Синонимы — факторные данные, качественные данные, номинальные данные.
Категоризация данных (Data categorization) В искусственном интеллекте и анализе данных — задача отнесения наблюдений к одной из групп, называемых категориями. Система-категоризатор формирует обобщающие признаки категорий на основе обучающих примеров.
Качество данных (Data quality) Степень пригодности данных к решению определенной задачи. Приведение сырых данных в соответствие с критериями качества является важнейшей задачей Data Mining и образует целое направление, называемое предобработкой.
Квадратичная функция ошибки (Quadratic error function) В анализе данных и машинном обучении — функция, выражающая зависимость квадрата ошибки оценивания значения выходной переменной аналитической модели (статистической или обучаемой) от входных значений.
Квантиль распределения (Quantile) Значение случайной величины, для которого вероятность попадания в заданный интервал не превышает фиксированного значения. Делит область изменения случайной величины на интервалы, попадания в которые имеют равные вероятности.
Квантование (Binning) Дискретизация Процесс обработки данных, который преобразует непрерывные данные в дискретные путем замены значений диапазонами. Может использоваться для сокращения размерности данных, а именно для уменьшения числа разнообразных значений признака.
КЛАДР Классификатор адресов Онлайн-классификатор адресов ФНС России. Может использоваться для очистки персональных данных от ошибок, допускаемых при внесении адресной информации. В настоящее время заменен на ФИАС.
Класс (Class) В статистике и анализе данных — группа объектов или явлений, обладающих общими свойствами. Выявление классифицирующих правил называется задачей классификации, а процесс распределения объектов по классам — классификацией.
Классификация (Classification) В анализе данных — разбиение множества объектов или наблюдений на заданные группы (классы), внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки.
Классификация с учетом издержек (Cost-sensitive classification) Классификация, чувствительная к издержкам Случай бинарной классификации, когда издержки ошибок классификации не одинаковы. Имеет большое значение в машинном обучении для квалификационных моделей (регрессия, нейросеть) в условиях несбалансированной выборки.
Классифицирующая функция (Classification function) Функция, которая присваивает каждому наблюдению метку класса в соответствии с определенным правилом или зависимостью. Может представлять собой набор правил, например, вида «если, то», или уравнение.
Кластер (Cluster) В статистике — подмножество объектов статистической совокупности, однородных по своим признакам. В анализе данных и машинном обучении — область многомерного пространства, внутри которой расстояние между любыми векторами объектов меньше, чем до любого объекта вне кластера.
Кластеризация (Clustering) Сегментация, Segmentation Объединение объектов или наблюдений в непересекающиеся группы — кластеры, на основе близости значений их признаков. В Data Mining используется для сегментации клиентов и рынков, медицинской диагностики, социальных исследований и т.д.
Кластерный анализ (Cluster analysis) Технология многомерного анализа данных, в основе которой лежит кластеризация. Широко используется для обработки данных, полученных при проведении маркетинговых кампаний, для сегментации рынка и т.д.
Клиентский опыт (Customer experience) Опыт клиента Совокупность когнитивных, эмоциональных, сенсорных и поведенческих реакций клиента на всех этапах его взаимодействия с компанией, знание которых позволяет совершенствовать процессы взаимодействия с потребителями с целью повышения их лояльности.
Ключевые показатели эффективности (Key Performance Indicators) KPI, КПЭ Система числовых показателей для оценивания эффективности деятельности компании в целом, или отдельных её подразделений, работников и направлений деятельности. Позволяют оценить текущее состояние предприятия, определить, насколько далеко оно от оптимального, а также выявить возможности по улучшению.
Ковариация (Covariation) Корреляционный момент, Ковариационный момент В теории вероятностей и математической статистике — мера линейной зависимости двух случайных величин. Широко применяется при формировании инвестиционных и кредитных портфелей, ценообразовании, управлении инвестициями.
Когорта (Cohort) В статистике, маркетинге и демографии — группа объектов, имеющих общие характеристики и связанных с общим событием (например, клиент — с датой рождения или датой первой покупки).
Когортный анализ (Cohort Analysis) Разновидность поведенческого анализа в разрезе групп клиентов, сформированных по какому-либо признаку во времени, называемых когортами.
Коллекторский скоринг (Collections scoring) Скоринг взысканий Аналитический инструмент для оценивания кредитоспособности заёмщиков, допустивших просроченную задолженность по кредиту, на основе их кредитной истории. Результатом коллекторского скоринга является балльная оценка, значение которой отражает вероятность дефолта заёмщика в течение заданного периода.
Колоночная база данных (Columnar database) Column-oriented database База данных, в которой данные группируются не по строкам, а по столбцам. Важное свойство — высокая скорость и гибкость выполнения сложных запросов, из-за чего колоночные СУБД предпочтительнее для OLAP-систем и больших данных.
Комбинаторный взрыв (Combinatorial explosion) Экспоненциальный рост количества вычислительных операций, вариантов состояний или требуемых для решения задачи ресурсов при линейном повышении ее размерности. Примером является поиск ассоциативных правил.
Конверсионный маркетинг (Conversion Marketing) Стратегия, направленная на увеличение числа конверсий — переходов посетителей интернет-ресурсов с рекламой товаров и услуг в реальных покупателей. Одним из важнейших инструментов является A/B-тестирование.
Конкурентная разведка (Competitive Intelligence) Бизнес-разведка, Деловая разведка Сбор и анализ данных из различных источников для выработки управленческих решений, направленных на повышение конкурентоспособности компании. Технологии Data Mining значительно повышают эффективность конкурентной разведки.
Конкурентное обучение (Competitive learning) В анализе данных — методика обучения в сетях Кохонена, при которой искусственные нейроны соперничают друг с другом, чтобы вектор их весов оказался как можно ближе к вектору признаков предъявленного объекта.
Консолидация (Consolidation) Data consolidation, Консолидация данных Процесс извлечения данных из различных источников, преобразования их к единому формату и организации хранения в виде, оптимальном для обработки на аналитической платформе или решения аналитической задачи.
Контент-анализ (Content analysis) Анализ контента, Анализ содержимого Анализ документов и других объектов коммуникативной культуры с целью последующей содержательной интерпретации выявленных закономерностей. Использует методы интеллектуального анализа данных и Text Mining.
Контроллинг (Controlling) Management control system, MCS Система поддержки управления организацией, которая собирает и использует информацию для оценки эффективности различных организационных ресурсов — человеческих, материальных, финансовых, а также организации в целом.
Контрольная карта Шухарта (Shewhart control chart) Карта Шухарта Метод визуального контроля за технологическим, деловым или другим процессом в ходе его выполнения, а также для обнаружения и анализа отклонений процесса.
Концентратор данных (Data Hub) Разновидность корпоративной информационной архитектуры, обеспечивающая консолидацию и централизованное хранение всех данных компании, и поддерживающей обмен ими с другими системами, например бизнес-аналитики и интеллектуального анализа данных.
Корреляционный анализ (Correlation analysis) Совокупность методов обработки данных с целью обнаружения статистической взаимосвязи между случайными величинами или признаками. Один из важных инструментов Data Mining.
Корреляция (Correlation) Статистическая взаимосвязь двух или нескольких случайных величин. Исследования корреляционных зависимостей являются очень важными при построении аналитических моделей.
Коэффициент вариации (Variation coefficient) В статистике — отношение стандартного (среднеквадратичного) отклонения случайной величины к ее математическому ожиданию. Одно из важных применений коэффициента вариации — оценка инвестиционных рисков.
Коэффициент детерминации (Coefficient of determination) Коэффициент смешанной корреляции, Коэффициент R-квадрат Отражает объясняющую способность регрессии. Равен отношению суммы квадратов регрессии к общей вариации. Является статистической мерой согласия. Позволяет определить, насколько уравнение регрессии соответствует реальным данным.
Коэффициент детерминации МакФаддена (Coefficient of determination McFadden's) Коэффициент R-квадрат Коэффициент детерминации МакФаддена и скорректированный коэффициент детерминации МакФаддена применяются для оценки степени соответствия модели регрессии реальным данным (логит, пробит, гомпит регрессий).
Коэффициент конверсии (Conversion rate) В конверсионном маркетинге — отношение числа посетителей интеренет-ресурса, проявивших на нём целевую активность, к общему числу посетителей. Характеризует эффективность ресурса, рекламирующего товары или услуги компании.
Коэффициент корреляции (Correlation coefficient) В математической статистике — показатель, характеризующий силу статистической связи между двумя или несколькими случайными величинами. Широко применяется в анализе данных для отбора переменных в аналитические модели.
Коэффициент ранговой корреляции Кендалла (Kendall rank correlation coefficient) Kendall rank-order correlation coefficient, Kendall's coefficient, Тау-корреляция В математической статистике — метод корреляционного анализа, описывающий зависимость между переменными, представленными в порядковой (ранговой) шкале.
Коэффициент ранговой корреляции Спирмена (Spearman's rank correlation coefficient) Spearman's rank-order correlation coefficient, ро-коэффициент Статистический показатель, описывающий зависимость между признаками, представленными в порядковой (ранговой) шкале. Аналогичен коэффициенту корреляции Пирсона, но использует при расчётах не значения признаков, а их ранги.
Коэффициент регрессии (Coefficient of regression) Коэффициенты уравнения регрессии, которые показывают силу и характер влияния независимых переменных на зависимую и характеризуют степень значимости отдельных переменных для повышения точности модели.
Коэффициент силуэта кластера (Cluster silhouette index) Индекс силуэта, Коэффициент силуэта, Silhouette index, Silhouette coefficient Показатель, позволяющий оценить степень соответствия построенной кластерной структуры обучающим данным на основе анализа внутрикластерных и междукластерных расстояний.
Коэффициент скорости обучения (Learning rate) Параметр скорости обучения В машинном обучении — параметр градиентных алгоритмов обучения нейронных сетей, позволяющий управлять величиной коррекции весов на каждой итерации.
Коэффициент удержания клиентов (Customer Retention rate) Retention Rate, CRR Показатель, отражающий способность компании поддерживать долгосрочные отношения с клиентами, а также осуществлять мониторинг эффективности её стратегии по удержанию клиентов.
Коэффициент эластичности (Elasticity coefficient) Характеризует относительное изменение одного признака при относительном изменении другого. В экономике и бизнесе используется для анализа соотношения спроса и цены.
Кредитный портфель (Credit Portfolio) Loan Portfolio Остаток задолженности по всем кредитам, выданным банком, на определенную дату. Для балансировки портфеля по рискам и доходности проводится его анализ. Важнейший инструмент снижения кредитных рисков — скоринговые системы.
Кредитный скоринг (Credit scoring) Анализ данных о заёмщике в потребительском кредитовании по результатам которого тому начисляются балльные оценки, используемые кредитными организациями для поддержки принятия решения о целесообразности выдачи кредита и определении его параметров (суммы, сроков, процентной ставки).
Кредитоспособность (Creditworthiness) Право и возможность для получения кредита. Оценка кредитоспособности заемщика — важнейшее условие минимизации рисков для банка. Наиболее современным инструментом оценки является кредитный скоринг.
Кривая Лоренца (Lorenz curve) В экономической статистике — альтернативный графический способ представления функции распределения случайной величины в приложении к исследованию распределения доходов населения.
Кривые AR-BR (AR-BR-curves) Approval rate vs. bad rate diagram Графический инструмент для оценивания качества скоринговой модели. Показывает связь между процентной долей одобренных заявок и соответствующей долей «плохих» кредитов для каждого значения точки отсечения скоринговой модели.
Критерий Дарбина-Уотсона (Durbin-Watson statistic) Применяется для обнаружения автокорреляции во временных рядах. Также с помощью критерия Дарбина-Уотсона выявляют наличие коинтеграции (продолжительной линейной зависимости) между двумя временными рядами.
Критерий Колмогорова-Смирнова (Kolmogorov–Smirnov test) K–S test, KS test Статистический критерий для определения соответствия эмпирического и теоретического вероятностных распределений, а также сравнения распределений двух выборок.
Критерий прироста информации (Information Gain) В анализе данных и машинном обучении — критерий, используемый для выбора лучшего разбиения подмножеств в узлах деревьев решений в алгоритмах обучения ID3 и С4.5.
Критерий согласия (Fitting criterion) Статистическое правило, по которому принимается или отвергается гипотеза о том, что исследуемая случайная величина подчиняется заданному эмпирическому закону распределения. Имеет важное значение при применении статистических методов анализа.
Критерий Фишера (F-test) F-критерий Статистический критерий для оценки значимости различия дисперсий двух случайных выборок. В Data Mining применяется для оценки значимости регрессионных моделей.
Критическое значение (Critical value) В статистических критериях согласия (например, t-критерии Стьюдента или F-критерии Фишера) — граница области значений критерия, для которых основная гипотеза отвергается.
Кросс-валидация (Cross-validation) Перекрестная проверка, Rotation estimation В машинном обучении — метод формирования обучающего и тестового множеств для обучения аналитической модели в условиях недостаточности исходных данных или неравномерного представления классов.
Кросс-продажа (Cross-sell) Перекрестные продажи, Cross-selling Предложение клиенту совместно с товарами и услугами основного ассортимента дополнительных товаров и услуг. Сочетания совместно приобретаемых товаров эффективно выявляются методами Data Mining, такими как поиск ассоциативных правил.
Куб (Cube) Сводная таблица, Гиперкуб, Многомерный куб, OLAP-куб, Hypercube Многомерный массив данных, используемый в системах оперативной аналитической обработки (OLAP). В основе идеи построения куба лежит модель данных, предполагающая их разделение на измерения и факты. Куб можно рассматривать как многомерное обобщение двумерной таблицы. При этом измерения образуют оси многомерной модели данных (ребра куба), а факты — ячейки внутри куба, расположенные на пересечении соответствующих значений измерений.