Вход
Регистрация

"Отчего же не вырвать? Вырвать можно. Только тут понимать надо, без понятия нельзя… Зубы разные бывают. Один рвешь щипцами, другой козьей ножкой, третий ключом… Кому как."
А.П.Чехов

Введение

Потоки текстовой и числовой информации ежедневно порождаются и оседают в хранилищах данных. Насколько полно на практике используются все те закономерности, которые кроются в этих данных и, возможно, представляют большую ценность? Можно предположить, что процент переработки "сырых" данных в практически значимые знания пока что весьма скромен. Даже богатый арсенал классической статистики используется далеко не полностью, не говоря уже о более современных методах нелинейного анализа. "Там, где обязаны поклоняться солнцу, законы теплоты будут слабо поняты" Речь о том, что в нашей стране, хотя статистика и не обзывалась "продажной девкой буржуазии", длительное время осуществлялось неприятие формальной статистики. Какая тут статистика, если сами данные должны были соответствовать идеологическим установкам государства. Ситуация усугубляется тем, что в последнее время активно развиваются новые методы анализа данных и извлечения знаний, базирующиеся на иных, нежели традиционная интегро–дифференциальная парадигма, подходах. Имеются в виду методы эволюционного моделирования и методы машинного обучения. Термин "эволюционное моделирование" в настоящее время является достаточно устоявшимся, и общепринято под этим термином подразумевать генетические алгоритмы и искусственные нейронные сети. Термин "машинное обучение" оставляет больше возможностей для дискуссий о том, какие методы имеются в виду, в частности, сюда относятся деревья решений.

Что такое онтология?

Как ориентироваться в этом многообразии инструментов? Какой из них выбрать для решения конкретной задачи? В сложившейся ситуации очень кстати приходится сравнительно новый термин – "онтология". Онтология – это точная спецификация некоторой предметной области. Она обеспечивает словарь для представления и обмена знаниями об этой предметной области и множество связей, установленных между терминами в этом словаре. В простейшем случае построение онтологии сводится к:

  • Выделению концептов – базовых понятий данной предметной области;
  • Построению связей между концептами – определению соотношений и взаимодействий базовых понятий.

Одним из преимуществ использования онтологий в качестве инструмента познания является системный подход к изучению предметной области. При этом достигаются:

  • Систематичность – онтология представляет целостный взгляд на предметную область;
  • Единообразность – материал, представленный в единой форме гораздо лучше воспринимается и воспроизводится;
  • Научность – построение онтологии позволяет восстановить недостающие логические связи во всей их полноте.

Онтология анализа данных

Так как знания носят личностный характер, одну и ту же предметную область можно описать разными онтологиями. Особенно это касается плохо формализуемых предметных областей или при наличии большого числа спорных вопросов.

Математическая статистика

Для решения задач, связанных с анализом данных при наличии случайных и непредсказуемых воздействий, математиками и другими исследователями за последние двести лет был выработан мощный и гибкий арсенал методов, называемых в совокупности математической статистикой. За это время накоплен большой опыт успешного применения этих методов в разных сферах человеческой деятельности, от экономики до космических исследований. И при определенных условиях эти методы позволяют получать оптимальные решения. Например, одна из задач, решаемых в радиолокации – обнаружение известного сигнала на фоне аддитивной помехи в виде белого шума. Методы математической статистики решают эту задачу оптимальным образом и трудно себе представить необходимость применения других подходов к решению этой задачи. В тоже время, задача разрешения близко расположенных целей в условиях более сложной помеховой обстановки линейными статистическими методами решается менее успешно.

Эволюционное моделирование

На сегодняшний день, говоря об эволюционном моделировании, обычно имеют в виду генетические алгоритмы и искусственные нейронные сети. Термин "эволюционное моделирование" обязан своим происхождением источнику заимствования идей, лежащих в основе этой парадигмы. Если в основе классических подходов лежат формализованные каким-либо образом знания человека о предметной области, то для нейронной сети аналитическая форма представления знаний недоступна, все что она может – это запомнить и обобщить предъявленные ей на этапе обучения эмпирические зависимости между входными факторами и результирующими значениями. То есть нейронная сеть строит модель некоего процесса и в дальнейшем воспроизводит его поведение. Это дает повод некоторым исследователям утверждать, что искусственные нейросети моделируют свойственные человеку приемы мышления. По нашему мнению, для практического использования нейросетевых технологий достаточно того обстоятельства, что нейросети в состоянии строить сложные нелинейные модели процессов, а как на самом деле устроены человеческие мозги – дело десятое. Важно другое – качество модели зависит от качества обучающих данных (тут все как у людей).

Генетические алгоритмы используют механизмы генетической эволюции, которые в общем виде могут быть сформулированы так: чем выше приспособленность особи, тем выше вероятность того, что в его потомстве эта приспособленность будет выражена еще сильнее. Трактовка процесса приспособления как оптимизационного процесса приводит к идее использования генетических алгоритмов при обучении нейронных сетей. Причем, если градиентные методы обучения гарантирую нахождение локального минимума, то генетический алгоритм обеспечивает глобальную оптимизацию.

Область применения

Методами эволюционного моделирования решается широкий класс задач: классификация образов, кластеризация, аппроксимация, прогноз данных, оптимизация, ассоциативная память, управление динамическими объектами. Причем в силу всего вышесказанного, нейронные сети в сравнении с методами математической статистики справляются с перечисленными задачами тем успешнее, чем хуже формализуема задача.

Достоинства нейросетей

  • Одним из основных достоинств нейронных сетей является то, что они имеют широкую область применения. Деревья решений напротив, ограничены в рамках задач классификации, следует заметить, что существуют алгоритмы решающие задачи прогнозирования, но они значительно уступают нейронным сетям;
  • Нейронные сети по своей природе являются универсальными аппроксиматорами и позволяют моделировать очень сложные закономерности, что, скажем, не доступно классическим регрессионным моделям;
  • Нет необходимости заранее знать вид аппроксимируемой функции;
  • Нейронная сеть может быть легко дообучена с учетом вновь поступивших данных, для деревьев решений на сегодняшний день это большая проблема, поскольку не разработана методика "достроения" дерева, приходится строить дерево с нуля, не учитывая ранее построенное;
  • Существуют нейросетевые парадигмы, например, карты Кохонена, в которых процесс обучения происходит без учителя, т.е. сеть сама разбирает структуру данных;
  • Другая нейросетевая парадигма РБФ – сети очень быстро обучаются, хотя надо заметить, что так называемое "проклятие размерности" касается их в большей степени.

Машинное обучение

Цель методов машинного обучения – получение простых классифицирующих выражений, которые были бы легко понятны для человека. Достоинством таких методов является то, что во время работы того или иного метода не требуется участие человека.

Область применения

В исследовании, проведенном в рамках европейского проекта StatLog, был проведен анализ статистических методов (дискриминантый анализ, кластер-анализ и т.д.), деревьев решений (C4.5, AC2, CART, NewID, CN2, Itrule и т.д.) и нейронных сетей (многослойные сети, РБФ-сети, карты Кохонена) для решения задач классификации. Данные были взяты из различных предметных областей: распознавание образов (рукописного текста, автомобилей), медицинская диагностика (диабет, травмы головы, сердечные заболевания), молекулярной биологии (распознавание структуры ДНК) выдача кредитов и т.д.

В ходе исследования выяснилось, что деревья решений показали наилучшие результаты в решении следующих задач:

  1. Оценка кредитоспособности кандидата на получение кредита;
  2. Диагностика неисправностей в технических системах;
  3. Размещение радиаторов в Space Shuttle.

Достоинства деревьев решений

  • На обучение деревьев решений требуется гораздо меньше времени, чем, например, на обучение нейронных сетей;
  • Результат работы представляется в легко интерпретируемом для человека виде. Классификационная модель, представленная в виде дерева является интуитивно понятной для человека, в отличие от нейронных сетей, являющихся по своей природе черным ящиком;
  • На вход алгоритма деревьев решений можно подавать любое количество параметров, алгоритм сам выберет наиболее значимые параметры и только они будут фигурировать в построенном дереве. Это избавляет пользователя от необходимости определять входные параметры. Опять же, при использовании нейронных сетей мы должны очень осторожно подходить к вопросу о входных полях, так, с ростом количества входных полей, увеличивается время затрачиваемое на процесс обучения, который и так является очень долгим и вызывает много нареканий;
  • Точность прогноза деревьев решений сопоставима с другими методами построения классификационных моделей (статистические методы, нейронные сети);
  • Существуют масштабируемые алгоритмы деревьев решений SLIQ, SPRINT, т.е. с ростом числа примеров время затрачиваемое на обучение растет линейно для построения деревьев решений на сверхбольших базах данных;
  • Алгоритмы построения деревьев решений имеют методы специальной обработки пропущенных данных;
  • Классические и современные методы статистики используемые в задачах классификации работают только с числовыми данными, деревья решений успешно работают как с числовыми так и строковыми значениями. Кроме того, некоторые из статистических методов являются параметрическими, т.е. мы заранее должны знать вид модели или зависимость между зависимыми и независимыми переменными. Например, классификаторы, построенные по принципу максимального правдоподобия, предполагают, что данные имеют нормальное распределение;
  • Позволяют извлекать правила на естественном языке, например: Если возраст > 35 И доход > Cреднего То Выдать кредит.

Заключение

На нашем форуме иногда можно встретить довольно раздраженные реплики по поводу всех этих умностей. Особой нелюбовью почему то пользуются нейронные сети. Нам бы хотелось призвать этих авторов к большей сдержанности и сказать следующее.

Во-первых, если трезво посмотреть вокруг, выясняется, что при помощи нескольких магических слов, таких как нейросеть, персептрон, факторный анализ, регрессионный анализ… , нельзя решить всех нерешенных проблем. "Очень редко удается открыть одновременно несколько тайн природы одним и тем же ключом". (К. Шеннон).

Во-вторых, эффективность методик нелинейного оценивания (имеется в виду нейрокомпьютниг) может быть повышена при сочетании их с уже известными линейными статистическими методами. Пример – сети РБФ, в которых настройка весов скрытого слоя ведется с помощью генетического алгоритма, а веса выходного слоя рассчитываются старым добрым методом псевдообратных матриц.

Это всего лишь инструмент. Как им пользоваться, решает в конце концов человек. Кстати история, описанная Чеховым в рассказе "Хирургия" (откуда взят эпиграф), произошла только потому, что вместо доктора, уехавшего жениться, больных принимал фельдшер Курятин.