Вход
Регистрация

Помогите определится с вектором поиска

Добрый день! Я аспирант первого года. Моя темя дисера выглядит примерно так: "Уменьшение размеров статистической БД, без потери данных". Её я взял с работы: имеется огромная БД(речь о сотнях петабайт информации), которая копилась 10 лет. Родилась идея её уменьшить, т.к. старые данные не очень интересны и их точностью можно пренебречь (чем более старые данные, тем большую точность можно потерять), но эта идея не приоритетная и в задачу она так и не переродилась. Я взялся за неё, т.к. из неё можно спокойно написать дисер. Сама БД представляет из себя таблицу, каждая строка которой представляет из себя событие и имеет 30 столбцов параметров, некоторые из которых могут принимать по 2 состояния (true/false), а некоторые представляют из себя произвольную строку, которая может нигде больше не повторяться. Логичная идея: склеить похожие строки(события) и присвоить ещё один столбец с обозначением "веса" строки. Но в научной работе нужно опираться на имеющиеся научные труды, которых я никак найти не могу. Можете задать мне направление поиска (область науки; организации, занимающиеся подобными проблемами; ПО; очень желательно конкретную литературу)? Фраза: работаю в этой области давно, не сталкивался подобной проблемой и точно могу сказать что тут ... и тут ... искать не стоит, тоже будет очень полезна! Заранее спасибо!