Доклад Сергея Леонидовича Добриднюка на тему «Кибернетические медицинские системы в 2015 году: успех и мистификация». История развития темы, подходы к решению, работающие подходы.
Пошаговое описание решения задачи с Kaggle предсказания выживших пассажиров «Титаника». Основное внимание уделено исследовательскому анализу (exploratory research) и работе по созданию и выбору предикторов (feature engineering).
Роскомнадзор отмечает недопустимость использования Big Data инструментов для таргетинга рекламных сообщений, т.к. они нарушают неприкосновенность персональных данных пользователя и являются чрезмерно навязчивыми.
Вычислительные эксперименты – это не только обработка больших объемов данных. Многие специалисты в этой области занимаются разработкой численных методов и знают, что большая часть этой работы состоит не в написании сложных алгоритмов численного анализа.
То, что в отдельных интервью говорят заказчики различных отраслей, трактуя само понятие «клиентские данные», рассказывая, как они их собирают и классифицируют и какие методы применяют для их обработки, позволяет сделать некие обобщения.
Курс посвящён машинному обучению и решаемым подобным способам задачам. Разбираются постановки задач, популярные модели, подготовка данных и оценка качества. Курс будет полезен каждому, кто хочет постичь искусство предсказательного моделирования и освоить интеллектуальный анализ данных.
Ученые из Венесуэлы разделили музыкальные произведения по стилям, проанализировав содержимое соответствующих MIDI-файлов так, как если бы они были осмысленным текстом.
Мэтью Лай (Matthew Lai) разработал компьютерную программу Giraffe, которая трое суток играла в шахматы сама с собой и смогла извлечь все предметно-ориентированные знания, необходимые для игры на уровне международного мастера ФИДЕ.
Работу более 30 тыс. нейронов, соединенных 40 млн связей, смог сымитировать созданный международной группой ученых компьютерный алгоритм.
Gartner исключил большие данные из своего отчета «Цикл зрелости технологий 2015». Исследователи объясняют это размыванием самого термина — входящие в понятие «большие данные» технологии стали повседневной реальностью бизнеса.
При построении нейросети некоторые методы начинают работать только при очень больших объемах данных, на недостаточных выборках они даже близко не подходят к адекватным результатам.
Сбербанк щедро отгрузил данных. Нам дали ~20 000 пользователей, про которых было известно попали они в отток в ноябре, декабре, январе или нет. И было ~30 000 пользователей, для которых нужно было угадать уйдут ли они в феврале.
Основной спрос на таких специалистов формируют IT- и телеком-компании, банки и крупные розничные сети. Ключевые требования — опыт построения коммерчески успешных сложных моделей поведения целевой аудитории с помощью data mining инструментов.
Эффектный, но странный и неэффективный способ поиска специалистов. Как говорилось в классическом фильме "такие пилоты как вы на улице не валяются" (с) Г. Данения.
Мы часто перестаем искать новую информацию, как только нашли ответ на вопрос, который сами поставили. А что в итоге? Мы только подтвердили свое первое предположение. А есть уверенность, что именно оно было единственно правильным?