Big Data сейчас очень популярный термин. В любой околокомпьютерной прессе куда не ткнись только и рассказы о том как это круто.
В принципе, это хорошо для всех, кто занимается аналитикой, т.к. журналисты "разогревают" наш рынок. Люди начинают задумывать о том, что бы полезного извлечь из имеющихся данных или откуда подтянуть данные.
Понятно, что массовую публика вряд ли зацепить математикой, разве что если придумать что-то попсовое в названии, типа: нейросети – это модель человеческого мозга. Кроме того, народ хорошо реагирует на цифры: миллиард записей, триллион мегабайт и прочее, чем больше – тем лучше. А если добавить что-то мистическое – журналисты тут же растиражируют это по всему свету. Таковы законы жанра.
Проблема заключается в другом, что теперь все, что есть в аналитике, оказывается – это Big Data. То, что раньше называлось отчетностью, теперь это оказывается решение класса Big Data. Называть своими словами – это не круто.
Например, я недавно наткнулся на презентацию продукта Pentaho. В названии ролика, конечно же, присутствует модный термин: "An Intro to Pentaho Big Data Analytics". А на самом деле – это опять все та же визуализация.
Как ребята намерены найти закономерности в миллиардах записей просматривая их глазами не понятно. Максимум аналитики, что преподносится, насколько я понял, как венец человеческой мысли – это посчитать какой-нибудь агрегат и показать все в том же OLAP. Ну да..., еще нанести на карту.
Анализ больших объемов данных, действительно очень перспективная и интересная штука. Только надо четко понимать, что визуализацией ее не возьмешь. Нужно использовать алгоритмы очистки, предобработки и моделирования, чтобы хоть что-то накопать в данных.