В 2016 году академической программе BaseGroup Labs исполнилось 11 лет. За эти годы в наши ряды партнеров вступило более ста вузов из России, Украины и Беларуси. Для обмена опытом преподавания информационно-аналитических технологий мы провели несколько конференций, и будем проводить их в дальнейшем, но не все могут приехать и пообщаться в очном режиме.
Данной публикацией мы открываем цикл интервью с наиболее активными участниками нашей академической программы. Мы надеемся, что их опыт вдохновит других преподавателей.
Итак, представляем Брянский государственный технический университет в лице кафедры «Информатика и программное обеспечение» и двух преподавателей: заведующего кафедрой Александра Георгиевича Подвесовского и доцента Дмитрия Григорьевича Лагерева (их доклад с III межвузовской конференции преподавателей доступен здесь).
БГТУ вступил в академическую программу BaseGroup Labs одним из первых, в 2006 году, и инициатором участия была кафедра «Компьютерные технологии и системы» (доцент Тищенко А.А.). Позже, в начале 2010-х годов, инициатива перешла к кафедре «Информатика и программное обеспечение». Информация о кафедре представлена в карточке вуза, которую мы специально подготовили.
Беседу от BaseGroup Labs ведет Николай Паклин.
Александр Георгиевич, Дмитрий Григорьевич, расскажите, как началось знакомство вашей кафедры с продуктами и технологиями компании BaseGroup Labs?
Александр Георгиевич Подвесовский (далее А.П.): Первый опыт использования аналитической платформы Deductor кафедра «Информатика и программное обеспечение» приобрела еще в начале 2000-х – тогда система Deductor Studio, по инициативе одного из наших преподавателей, использовалась в курсе «Нейрокомпьютерные системы» для выполнения нескольких лабораторных работ по исследованию простых нейросетевых моделей. Более масштабное использование платформы Deductor началось в 2009 г., когда на кафедре была организована магистратура по направлению «Информатика и вычислительная техника». Первой магистерской программой, которую мы начали реализовывать в рамках данного направления, стала программа «Компьютерный анализ и интерпретация данных». И именно в рамках этой программы Дмитрий Григорьевич Лагерев начал преподавать курс «Интеллектуальный анализ данных».
Ваш вуз – один из немногих вузов нашей академической программы, который использует Deductor на занятиях у студентов – будущих программистов (в основном Deductor применяют для подготовки будущих аналитиков и экономистов). Как вы смогли встроить его в учебные планы для программистов? Интересно ли им решать задачи по анализу данных, используя готовые алгоритмы?
А.П.: Как уже было отмечено, Deductor мы используем в рамках магистерской программы «Компьютерный анализ и интерпретация данных». Целью данной программы является подготовка программистов и системных аналитиков со специализацией в таких областях, как обработка и анализ больших объемов данных, системы поддержки принятия решений, машинное обучение, обработка и анализ изображений, цифровая обработка сигналов – все эти области на сегодняшний день входят в число приоритетных направлений ИТ-отрасли. Исходя из такой специализации, основу учебного плана составляет спектр дисциплин, связанных с углубленным изучением методологии и технологий анализа данных – в число таких дисциплин, наряду со статистическим анализом данных, интеллектуальными системами, хранилищами данных, цифровой обработкой сигналов, анализом изображений, системами машинного зрения и рядом других, входит интеллектуальный анализ данных.
Дмитрий Григорьевич Лагерев (далее Д.Л.): При построении курса «Интеллектуальный анализ данных» хотелось сместить акценты с тонкостей программирования и низкоуровневой работы с данными на понимание «идеологической основы» интеллектуального анализа данных и особенностей данной технологии в сравнении с другими технологиями анализа данных, например, статистической обработки. Поэтому требовалась аналитическая платформа с низким порогом вхождения, но при этом с достаточно развитым функционалом, которую реально освоить в рамках семестрового курса и которая содержит все популярные методы и алгоритмы анализа. Последним аргументом в пользу построения курса целиком на аналитической платформе Deductor стало наличие версии Academic, в которой не было ограничений по времени использования и были доступны все методы и алгоритмы анализа.
А ограничения на импорт и экспорт данных нас не смущали, поскольку в учебный план магистерской программы входил также курс «Хранилища данных», в котором подробно рассматривались возможности СУБД MS SQL Server и надстройки Analysis Services, и таким образом магистранты имели возможность расширить и дополнить опыт построения хранилища данных, полученный при работе с Deductor Studio.
Что касается второго вопроса, интересно ли студентам решать задачи по анализу данных, используя готовые алгоритмы – на мой взгляд, работать с реальными данными всегда интересно: никогда не знаешь, что получится в итоге. А смещение фокуса внимания с деталей алгоритмов на задачу в целом во многих случаях позволяет «увидеть лес за деревьями». Кроме того, платформа Deductor хорошо подходит для разведочного анализа данных: с ее помощью можно очень быстро и с минимальными усилиями понять, насколько те или иные методы и алгоритмы пригодны для решения поставленной задачи, и при необходимости можно легко перестроить модель либо вообще изменить постановку задачи. И если потребуется, то часть обработки можно выполнить с помощью сторонних или самостоятельно разработанных библиотек, уже имея уверенность, что реализуемый метод сработает – в этом определенное преимущество использования платформы Deductor именно программистами.
Часто преподаватели вузов высказывают нам сожаление о том, что трудно найти реальные бизнес-данные для демонстрации решения задач и выдач индивидуальных заданий. Как вы решаете эту проблему?
Д.Л.: Есть несколько путей решения. Во-первых, мы используем открытые источники и банки данных, например данные Росстата. Во-вторых, некоторые коммерческие предприятия и ИТ-компании, в которых работают наши выпускники, по нашей просьбе предоставляют нам реальные данные, связанные со своей деятельностью (например, это может быть база данных магазина или оптового склада, содержащая данные за год). Обычно это данные устаревшие и частично обезличенные, но для выполнения лабораторных и курсовых работ таких данных вполне достаточно.
Ну и наконец, необходимые для анализа данные могут быть получены самим магистрантом – как правило, это бывает тех случаях, когда тема курсовой работы предлагается им самостоятельно.
А.П.: Помимо учебных проектов в области интеллектуального анализа данных, мы имеем опыт имеет опыт участия в научно-исследовательских проектах, у которых были реальные заказчики. В этих случаях данные предоставлялись самим заказчиком. К участию в этих проектах мы также привлекаем магистрантов – как правило, в рамках выполнения курсовых работ.
Расскажите подробнее об этих проектах.
А.П.: Первый такой проект был связан с анализом данных об археологических материалах, найденных во время раскопок курганного некрополя X–XIII веков в составе Кветуньского археологического комплекса на юге Брянской области – заказчиком выступал Центр живой истории «Кветунь» в г. Брянск.
Далее последовали два проекта, выполнявшиеся в рамках сотрудничества нашей кафедры с кафедрой общеправовых и социально-гуманитарных дисциплин Брянского филиала Академии народного хозяйства и государственной службы при Президенте РФ. Первый из них был связан с анализом и оценкой состояния наркоситуации в Брянской области, второй – с оценкой качества взаимодействия сотрудников регистратуры поликлиник г. Брянска с пациентами. В обоих случаях нам были предоставлены результаты реальных социологических опросов населения, и в наши задачи входило построение и исследование ансамбля моделей для их обработки.
Наконец, можно упомянуть проект сегментации пользователей мобильного приложения – интерактивной телепрограммы. Данный проект был реализован в рамках одной из магистерских диссертаций. Автор диссертации входил в число разработчиков данного приложения и тем самым имел доступ к данным об активности пользователей, которые являлись основой для сегментации. Есть и другие научно-исследовательские проекты, над которыми мы работаем в настоящее время.
Все ли студенты – будущие программисты интересуются анализом данных и Data Science? По вашим наблюдениям, какой процент ваших выпускников идут в эту специализацию?
Д.Л.: Активную заинтересованность во время прохождения курса «Интеллектуальный анализ данных» проявляют около половины магистрантов. В свою очередь, половина из них, т.е. порядка четверти потока, выбирает методы и алгоритмы анализа в качестве основного предмета исследования выпускной квалификационной работы (магистерской диссертации). А вот в качестве основной профессиональной деятельности это направление выбирают, увы, единицы. И те, как правило, для этого уезжают из Брянска.
Были ли случаи, когда студент сам предложил тему курсовой или выпускной работы, связанной с анализом данных?
Д.Л.: Это довольно частая практика. В соответствии с нашими требованиями, курсовая работа по дисциплине «Интеллектуальный анализ данных» должна быть выполнена на реальных данных и включать все этапы бизнес-анализа: от выдвижения гипотез и определения набора требуемых данных до интерпретации результатов в терминах предметной области. И многим магистрантам интересно попробовать свои силы не просто на реальных данных, но и на нужной или просто интересной задаче: от прогнозирования курсов валют, до анализа данных о поездках велосипедистов.
У нас в компании принято считать, что обучать бизнес-аналитике преподавателей вузов сложно: терминология и подходы, пришедшие к нам с Запада, медленно и с трудом «приживаются» в отечественной академической среде. Что вы можете сказать о нашем электронном курсе Основы бизнес-аналитики и науки о данных, дает ли он новые знания преподавателям, которые не первый год ведут дисциплины, связанные с информационно-аналитическими технологиями?
Д.Л.:Мне данный курс очень понравился. Особенно понравилась та его часть, которая была связана с выполнением практических заданий. Положительным моментом считаю также то, что после выполнения каждого задания можно ознакомиться с эталонным решением – это позволяет перенимать “best practices” от разработчиков платформы и тем самым эффективно использовать ее возможности. Сам бы я еще не скоро добрался до обработчиков «Скрипт» «Групповая обработка», «Качество данных».
На прошедшей июньской конференции преподавателей Вы видели Deductor 6, в ней много изменений. Нет опасений, что придется переделывать методические наработки?
Д.Л.: Возможности платформы Deductor 6 впечатляют! И конечно Вы правы: многие методические материалы придется переделывать. Но для нас это не столь критично, поскольку лекционный курс сфокусирован главным образом на методиках, моделях и алгоритмах анализа данных, и вследствие этого он достаточно независим от используемой платформы. На практических занятиях знакомство магистрантов с основными приемами работы в среде Deductor происходит в формате мастер-класса. И по нашему мнению, студентам с высоким уровнем компьютерной грамотности и хорошими навыками программирования достаточно дать теоретический фундамент и показать возможности платформы, а на какие кнопки нажать, они и сами разберутся, да и работать с документацией они умеют.
Идея курсовой работы вряд ли изменится, а вот цикл лабораторных работ, на наш взгляд, потребует существенной переработки, в связи со значительно расширившимися возможностями платформы и изменившимися принципами ее построения. При этом лабораторные работы станут более масштабными и интересными. Так что мы с оптимизмом ожидаем выхода новой версии.
Для того чтобы ваши студенты смогли использовать наработки на Deductor при защите выпускных квалификационных работ, в частности, обращаться к Deductor как к аналитическому сервису, мы осенью этого года предоставили вам лицензии на серверные компоненты DAS и DIS. Есть какие-то первые результаты, впечатления, планы?
Д.Л.: На данный момент мы закончили настройку сервера, выделенного специально под Deductor Enterprise, и выполнили все тестовые примеры. DAS и DIS это как раз то, чего нам не хватало для использования Deductor при выполнении выпускных квалификационных работ, поскольку одним из ключевых требований к магистерским диссертациям является разработка собственных законченных программных продуктов. На сегодняшний день двое магистрантов второго курса в своих магистерских диссертациях планируют использовать DAS и DIS как части разрабатываемых ими программных комплексов.
Далее к освоению серверных компонентов подключатся несколько магистрантов-первокурсников в рамках научно-исследовательской работы, результаты которой впоследствии также должны будут перерасти в магистерские диссертации. Кроме того, в курс «Интеллектуальный анализ данных» планируется добавление новых лабораторных работ, охватывающих основной функционал DAS и DIS, а также особенности их установки и настройки.
А.П.: Хотелось бы также отметить, что в нашем творческом коллективе есть аспиранты и молодые преподаватели – выпускники аспирантуры, с научными интересами в области теории и приложений интеллектуального анализа данных. Поэтому среди дальнейших планов – использование аналитической платформы Deductor и серверных компонентов в научных исследованиях, в том числе – при выполнении кандидатских диссертаций. В кандидатских диссертациях решаются значительно более масштабные задачи, чем в магистерских, и интеллектуальный анализ данных обычно составляет лишь часть исследования. Возможность использования DAS и DIS как веб-сервисов позволяет с помощью протокола SOAP легко встраивать их в любые программные комплексы, вне зависимости от используемых языков, технологий и средств разработки. И все это, в совокупности с низким порогом вхождения, развитым функционалом и подробной документацией, делает аналитическую платформу Deductor весьма привлекательной для больших наукоемких проектов, в которых достаточно применить известные алгоритмы интеллектуального анализа данных.
Первым таким проектом на нашей кафедре должен стать программный комплекс поддержки социологических исследований, который разрабатывается в рамках кандидатской диссертации нашего коллеги Артема Николаевича Бабурина. В данном программном комплексе DAS и DIS используются для интеллектуального анализа результатов социологических опросов с применением ансамбля моделей, при этом все остальные задачи, такие как создание и заполнение анкет, хранение и первичная обработка результатов анкетирования, визуализация результатов анализа, решаются с помощью других подсистем, разрабатываемых собственноручно.
В целом можно сказать, что использование платформы Deductor в качестве основы для аналитической подсистемы программного комплекса существенно снижает трудоемкость его разработки и тестирования. Конечно, при этом требуется изучение как самой платформы, так и ее серверных компонентов. Но поскольку DAS и DIS будут изучаться в магистратуре, то те выпускники, которые впоследствии поступят в аспирантуру, будут готовы к использованию этих компонентов в своих проектах. А наличие успешно защищенной диссертации, в которой часть результатов получены с применением платформы Deductor, станет серьезным аргументом в ее пользу при выборе средств поддержки интеллектуального анализа данных в других научных проектах.