Доцент Центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных (CDISE) Евгений Бурнаев рассказал РБК, как устроено сообщество специалистов по Data Science в постсоветских странах. Самое главное — в нашем пересказе.
Кто чаще всего идет в дата-сайентисты
В России это выпускники математических и инженерных или ИТ-факультетов основных технических вузов. Обычно у них хорошая базовая математическая подготовка по вычислительным методам, теории вероятности и математической статистике, оптимизации, которая необходима для работы в Data Science на высоком уровне.
Аналогичная ситуация в Беларуси и Казахстане: есть хорошие университеты, команды школьников и студентов часто занимают высокие места на международных олимпиадах. Есть и пространство для индустриальных приложений: например, в Беларуси в последние годы зародился целый ряд всемирно известных компаний, использующих машинное обучение и большие данные, и сейчас продолжают появляться интересные стартапы.
Где учат работать с данными
- Среди университетов: Сколтех (например, Международная летняя школа Сколтеха по машинному обучению SMILES), НИУ ВШЭ, Университет Иннополис, МФТИ
- Учебные программы от «Яндекса», Mail.ru Group, Ozon
Где общаются дата-сайентисты
Сейчас в сети есть сообщество open data science, которое объединяет русскоговорящих любителей и профессионалов из России, стран СНГ и Средней Азии. Оно насчитывает более 30 тыс. участников, которые общаются на тему науки, технологий и приложений машинного обучения.
Спрос на дата-сайентистов
Конечно же, он есть и только увеличивается. Рост автоматизации даже в отраслях так называемой «старой школы» — от металлургии до сельского хозяйства — вызывает потребность в инженерах с высоким уровнем подготовки. А некоторые специалисты смогут уйти и в предпринимательство, создавая стартапы для развития совершенно новых инструментов и приложений.
Основные ошибки начинающих
Недостаточно просто пройти тренинг по тому, как запускать обучение моделей и с их помощью строить прогнозы. Нужно понимать основные принципы работы используемых алгоритмов. Кроме того, появляются новые методы машинного обучения, которые могут решать насущные практические задачи эффективнее.
Что можно сделать для развития Data Science
- Сконцентрироваться на том, чтобы стать «локальным» лидером в каких-то отдельных типах приложений, областях научных исследований (например, приложения машинного обучения в задачах индустриальной инженерии и управления производством).
- Больше участвовать в международных конференциях.
- Поддерживать фундаментальную науку со стороны бизнеса (например, совместные лаборатории при университетах и программы обучения) и государства (поддержка на конкурсной основе талантливых аспирантов, обеспечение вычислительными ресурсами).