Диалоги о будущем. Николай Князев и Алексей Драль

10 ноября 2018 г.

Диалог о том как стать специалистом в Data Science

Николай Князев: Добрый день! Меня зовут Николай Князев,  на острове я веду курс по машинному обучению в бизнесе. Сам я руковожу группой Data Scientist-ов в компании «Инфосистемы Джет». Мы занимаемся внедрением машинного обучения в компаниях. Параллельно с этим уже третий год руковожу направлением «Большие данные машинное обучение» олимпиады НТИ, где мы со школьниками решаем практические задачи.

Алексей Драль: Добрый день, меня зовут Алексей Драль. Я являюсь генеральным директором компании Big Data Team, которая проводит очное обучение и онлайн обучение по тематикам: «Большие данные: машинное обучение». Также мы предоставляем консалтинговые услуги и разработки на Outsource по этой же тематике. На острове мы предоставляем технологические образования, технологический трэк для CDO по тематике машинного обучения и погружения в прикладную статистику.

Николай Князев: наверное, мы с Алексеем вместе здесь так или иначе обучаем Data Science. Интересно поговорить про то, куда двигаться человеку, который начинает заниматься Data Science?

Алексей Драль: Я сам в прошлом был и разработчиком, и Data Scientist-ом, и Data-инженером, порядка 10 лет работал в IT-компаниях, таких как: Rambler, Yandex, Amazon и WS в Ирландии, занимался масштабированием, построением Data-центра. Когда я учился на мехмате МГУ, те знания, которые мне вкладывали про IT, предоставлялись людьми, которые являются очень хорошими теоретиками, дают очень хорошие фундаментальные знания, но, к сожалению, дают не прикладные знания. К сожалению, было очень мало IT специалистов, которые на базе вуза дают хорошее IT образование. И сейчас по своему опыту я могу сказать, что пока человек  не прошел  путь разработки, поддержки сервисов несколько лет в одной компании и выращивания их с нуля до какого-то рабочего состояния, то он не может качественно донести эти знания до студентов. Поэтому привлечение на базу ВУЗов, коммерческих компаний, где угодно, с точки зрения Data Science оно невозможно без привлечения специалистов, которые там поработали. По вашему опыту что получилось?

Николай Князев: Data Science это термин, который включает 2 отдельных слова: Data и Science. При этом Data Science это все-таки наука и для неё необходимы точные научные знания и понимание математики, умение оперировать данными, прикладной частью. До этого я работал 3 года в Intel и оттуда было видно очень большое различие между прикладной системой Supper, собственно проектирование микроэлектроники, разность между прикладной микроэлектроникой и всё то, что нам рассказывали в ВУЗе. То же самое и в Data Science. Более того, я очень часто встречаю умных ребят, которые заканчивали сильные ВУЗы, но не очень понимают, как они эти знания могут приложить на практике в сфере DS. Теоретическое знание алгоритмов не всегда позволяет им перебороть страх перед тем, чтобы сесть и начать с чистого листа писать код, который решает ту или иную задачу. Потому что для этого нужны уже практические навыки, которые вырабатываются в другом. Когда меня спрашивают с чего начать, мне кажется, что первое, что нужно сделать, — это понять мотивацию человека.  Что тебя вообще заставляет это делать и если, например, самоорганизации у тебя не очень много и нужна какая-то поддержка, то есть много курсов о повышении квалификации, та же школа анализа данных Яндекса и другие. Если вы через это уже прошли и у вас есть образование и хочется быстро получить квалификацию, то тут вопрос усидчивости. Если его хватает, то можно записаться на курсы по Coursera, где недавно вышел отличный курс с подробным разбором кейсов для людей, которые имеют базовое понимание Data Science. И, наконец, если вам не чужд азарт и стремление к победе, то я недавно был на тренировке по машинному обучению в Яндексе, где был доклад, который как раз называется «Как стать победителем машинного обучения». Основной тезис, который в нём звучал, - это как раз то, что не нужно теории, не нужно тратить недели и месяцы на то, чтобы сидеть на курсах, если у вас в целом есть понимание математики, то заходите на Хакатон, на HAGL, смотрите код и начинаете разбираться, пока ваше решение не заработает. Начинаете смотреть в чужой код, смешивать ядра, смешивать решения разных участников и начинаете понимать. У меня как раз недавно эти три направления в голове сложились и, когда люди подходят с вопросом, то я предлагаю понять какое из направлений им ближе.

Алексей Драль: Сколько времени нужно чтобы стать хорошим специалистом в этой области?

Николай Князев: мне говорили, что есть теория, по которой нужно 10000 часов на любой продукт. Мне кажется, что это очень среднее значение и здесь нужно мерить не в часах, а в количестве проектов, которое вы успели реализовать. В целом, в Data Science проще, чем в любой другой науке. Если вы занимаетесь медициной, то нужно 6 лет чтобы привести достаточное количество операций или исследовать пациентов. В Data Science можно просто зайти на Kaggle, посмотреть текущие Data-сеты, посмотреть как их решали, зайти в Хакатоны других компаний, которые в России проводятся тоже довольно часто, попробовать их порешать, поговорить и вы уже начинаете получать какой-то уровень в этом. После решения 6-10 таких задач у вас уже появляется примерное понимание как строится процесс решения. А дальше всё уже зависит от специализации, в которую вы хотите углубляться.

Алексей Драль: за трёхдневный курс можно пройти эти 6-10 проектов?

Николай Князев: важно уточнить, что мы людям, которые уже знают что-то про Data Science, даём навыки, чтобы они могли лучше разбираться в этих решениях. Я обучал метрикам, как отличить хорошую модель от плохой и как понять даст модель какой-то прирост в бизнесе или нет, как презентовать это со стороны Data Scientist-а, как переводить одно в другое, выписывать ограничения моделей и на что обращать внимание на презентациях. Несмотря на то, что любому Data Scientist-у удобно оперировать метрикой среднеквадратичное логарифмическое отклонение или метрикой рока ук, бизнес этого не поймёт. Бизнесу удобно оперировать метриками Epitda, метриками приток клиентов-отток клиентов.

Алексей Драль: возможность получить практические навыки полностью зависит от того, насколько вы сами погрузились в решение той или иной задачи, донесли её до вашего заказчика, до вашего работодателя, до клиентов, которым вы продаёте этот сервис. То есть, когда вы прошли весь этот путь. И вот эти 6-10 проектов, которые вы можете найти на Kaggle, являются реальными Data Set-ами, в которых ещё нужно проводить работу над ошибками и понять, как люди думали. Должна закладываться культура работы с данными и написания качественных приложений. Нужно работать над реальными проектами и только тогда вы получите именно те навыки, которые нужны работодателю.

Николай Князев: на самом деле есть много нюансов. Во-первых, нужны навыки обычного программирования с объектно-ориентированными моделями, чтобы понимать, как строить программы и как их тестировать. Во-вторых, время. Иногда достаточно использовать одну стандартную модель, чтобы доказать, что задача решаема.
Алексей, как по вашему мнению может измениться рынок Data Science в России через 10 лет?

Алексей Драль: мне сложно предсказать такое направление движения. Если исходить из IT образования, технологии меняются очень быстро. В среднем IT курс отмирает за 2-2.5 года. Все навыки, которые люди получают, очень быстро устаревают. Соответственно само образование за это время очень сильно изменится. Будут предоставляться сжатые, компактные курсы, которые будут постоянно обновляться за счет IT компаний. Само IT образование поменяется, поэтому нужно смотреть, где интеграция работает лучше всего: с точки зрения привлечения IT компаний и построения связей. Многие проекты невозможно реализовать одному, поэтому нужно развивать навыки работы в командах. И этот навык требуется с каждым годом всё больше и больше.

Николай Князев: в России проходит довольно много конференций про Data Science, как и в бизнесе, так и с точки зрения математики Data Scientist-ов, где как раз вот такие новинки обсуждаются, показываются примеры их использования и можно вживую поговорить с авторами. И если мы говорим не про фундаментальное образование Data Scientist-ов, что в целом такое градиентный спуск и какие-то стандартные операции в линейной алгебре, а именно про то, чтобы быть впереди, то нужно, прежде всего, учить ходить на конференции, учить новости, новые статьи и вот это вот отдельная большая проблема: как из всего потока информации про Data Science выбирать те статьи и те новинки, которые действительно стоят внимания и разбора алгоритма, потому, что через 2 месяца он будет уже золотым стандартом и хорошо успеть применить его первым. Может быть выдвигать образование в сторону хождения на конференции и умения получать оттуда информацию, нежели быстрого преобразования этого в обучающие курсы. Что вы думаете?

Алексей Драль: в рамках учебного процесса человек получает какие-то навыки. Они чётко прописаны: что человек получит по окончанию того или иного курса. Как мы выделим, что есть конференция какого-то ВУЗа, он проводит её самостоятельно и все студенты обязаны сходить именно туда? Получается какой-то замкнутый круг. Для меня большой вопрос как мы можем оценивать качество посещения этой лекции.

Николай Князев: мы начали думать о какой-то цифровой платформе, которая собирает все активности со школьников: какие олимпиады проходил, какие курсы посещал. Основываясь на этой информации можно было оценить человека и подсказать чего именно ему не хватает. То есть Data Science вполне может помочь и в таком мире: анализируя большие объёмы данных обучения людей можно находить взаимосвязи, которые могут быть не видны. Пока всё это начинается со сбора данных и возможности их получения в целом.

Алексей Драль: данная тематика вкладывается в то, куда двигаются гиганты онлайн образования. То есть человек хочет получить какую-то специализацию и там выстраивается целая система треков от состояния полного незнания до состояния специализации по данной области. Люди могут разметить свои цели и подстроить под вас имеющиеся курсы. Очень хочется выстроить такую систему и для очного образования.

Николай Князев: мне кажется, что очень не хватает практических аспектов в образовании. Применения тех знаний, которые мы получаем и планируем давать через эти курсы.
Здесь на острове популярен сбор так называемого «второго следа», который потом будет анализирован чтобы давать советы о там какие направления были более выигрышными и что следует изменить в будущем. Что вы про это думаете и может ли это как-то помочь?

Алексей Драль: самая большая ошибка, которую можно допустить в обучении – это неправильно поставить задачу. Должна быть какая-то общая система, которая позволят определить ответ на вопрос: какой у нас спрос на тех или иных специалистов, и на основе этого спроса понять, как он может меняться в будущем. И только после этого мы можем говорить о том, какие изменения мы должны внести чтобы изменить то, что мы получим на выходе. Пока ещё мы находимся только на стадии понимания как эти данные влияют на то почему мы получаем таких выпускников. Когда говорят про Data Science, важно дать понимание, что модель машинного обучения, которая предсказывает что-либо в будущем, полностью зависит от того, какие данные вы туда поставляете и чем раньше вы задумаетесь о культуре работы с данными, тем будет лучше.

Николай Князев: я вижу единственный способ решения этой проблемы: нужно говорить, нужно общаться, и чтобы люди, которые применяют и используют модели, общались с людьми, которые собирают данные.

Видео: https://www.youtube.com/watch?v=2askW7lY8EQ