Название/Синоним Описание
Разведочный анализ (Exploratory analysis) Предварительный анализ данных с целью выявления наиболее общих зависимостей, закономерностей и тенденций. Предназначен для разработки наилучшей стратегии углубленного анализа и выдвижения гипотез.
Ранговая корреляция (Rank correlation) Rank-order correlation Статистическая процедура выявления и описания силы зависимости между признаками, представленными в ранговой (порядковой) шкале. Является одним из методов корреляционного анализа.
Распределение Стьюдента (Student's distribution) t-распределение В математической статистике — семейство непрерывных одномерных распределений с одним параметром — числом степеней свободы. В анализе данных используется для проверки гипотез о значимости моделей регрессии.
Распределение Фишера (Fisher's distribution) F-распределение, Распределение Снедекора В теории вероятностей — двухпараметрическое семейство абсолютно непрерывных распределений. Применяется для проверки статистических гипотез, в частности, при оценке значимости регрессионных моделей.
Расстояние Евклида (Euclid distance) Евклидово расстояние, Евклидова метрика Геометрическое расстояние в многомерном пространстве. Широко используется в анализе данных как критерий для объединения наблюдений в классы и кластеры, оценки ошибок в предсказательной аналитике, в визуализации данных.
Расстояние Левенштейна (Levenshtein’s distance) Редакционное расстояние, Дистанция редактирования Определяет, сколько раз необходимо добавить/удалить/заменить символ, чтобы одну строку превратить в другую. Может служить фильтром, отбрасывающим неприемлемые варианты, у которых значение функции больше заданной константы.
Расширенная модель авторегрессии скользящего среднего (ARIMAX) Autoregressive Integrated Moving Average eXtended Модель авторегрессии скользящего среднего с расширениями, которая учитывает влияние внешнего фактора на прогнозируемую величину.
Регрессионный анализ (Regression analysis) Набор статистических процедур для изучения зависимостей между случайными переменными. В аналитических технологиях Data Mining широко используется для решения задач прогнозирования, оценивания, классификации.
Регрессия (Regression) Зависимость математического ожидания случайной величины от одной или нескольких других случайных величин. Широко используется в анализе данных при решении бизнес-задач, таких как прогнозирование или скоринг.
Резидентные вычисления (In-Memory Computing) Обработка в памяти, Вычисления в памяти, In-Memory Processing, In-Memory Computation Резидентные (In-Memory) вычисления — технология построения высокопроизводительных распределенных системы, предназначенных для хранения и обработки данных в оперативной памяти в реальном времени. Обеспечивает производительность на порядки быстрее, чем системы, использующие дисковые накопители.
Реляционная база данных (Relational database) База данных, в основе которой лежит реляционная модель. Данные в ней организованы в виде набора таблиц, состоящих из столбцов и строк. Каждая строка — это набор связанных значений, относящихся к одному объекту.
Репрезентативность (Representativity) Представительность В статистике — соответствие характеристик выборки характеристикам совокупности, из которой она сформирована. Определяет, насколько возможно обобщать результаты исследования выборки на всю исходную совокупность.
Ретро прогноз (Retropolation) Ретроспективный прогноз, ретрополяция Инструмент для проверки надёжности выбранной модели прогнозирования.
Решающее правило (Decision Rule) Классифицирующее правило, Classification rule В машинном обучении и анализе данных — правила вида «если, то», определяющие принадлежность объекта к заданному классу. Применяются в деревьях решений и алгоритмах последовательного покрытия.
Решение (Decision) Управленческое решение Действие, связанное с выбором одной из альтернатив. Решения обычно принимаются в условиях недостатка информации, поэтому в современном управлении используют системы поддержки принятия решений на основе анализа данных.
Риск (Risk) Возможность потери чего-либо, имеющего ценность. Может быть измерен с помощью вероятности неблагоприятного исхода. Аналитические технологии Data Mining предоставляют комплекс методов оценки степени риска и возможных потерь.
Риск-менеджер (Risk manager) Специалист по управлению рисками в компании. Важным инструментом риск-менеджмента является анализ данных, а наиболее известной технологией снижения банковских рисков — скоринг.
Робастность (Robustness) Устойчивость В математической статистике — устойчивость вероятностной оценки к наличию в данных аномальных значений или к нарушению предположений, ограничивающих применение соответствующего статистического метода.