Кто такой Data Scientist или не ошибись с выбором

Есть забавный парадокс: школьников натаскивают на зазубривание правил и случаи их применения, но чем больше ученик знает правил и исключений, тем чаще совершает ошибку. В диктанте из текстов классической русской литературы изобилие запятых уточняющего характера приводит к мысли, что не поставленная запятая есть ошибка, а грамотная работа — это сочинение с большим количеством запятых. Может быть, если вы хороший писатель, то используете много запятых уточняющего характера, однако, это не тот случай, когда множество запятых делает вас хорошим писателем…

Подобная интерпретация запятых в классической русской литературе — пример некачественного анализа данных, построенного на слабой эрудированности и понимании математической статистики. Эти факторы + страстное желание развиваться в области информационных технологий — ключевые в понимании специализации «исследователь данных».
0b7ed5dd40684f63974a710b6fc8db0d[1]

Подготовлено по материалам выступления сотрудника Airbnb, специалиста по data science

Не будем подробно останавливаться на том, почему профессия data scientist отмечается как одна из самых привлекательных и перспективных в мире. По результатам исследования 330 млн. профилей зарегистрированных в LinkedIn, ключевыми компетенциями, которые получал народ в 2014 году, стали статистический и интеллектуальный анализ данных. Мы живем в мире, который всё больше и больше "управляется цифрами", а бизнесмены стали усиленно нанимать "исследователей данных" для хранения, поиска и анализа информации. В США, Индии и Франции, эти навыки пользуются повышенным спросом. Достаточно упомянуть, что число вакансий в этом направлении растёт по экспоненте, а по расчётам McKinsey Global Institute к 2018 году в одной только Америке понадобится дополнительно 190 тысяч специалистов по данным. Кроме того, McKinsey отмечают, что дополнительно необходимо обучить миллионы менеджеров базовым навыкам работы с данными. Это огромный рынок, который только начинает формироваться.

Однако, проблемы big data и способы их решения возникли не вчера. Объём накопленных за годы работы только в Airbnb архивных данных составляет несколько петабайт. Ежедневно в хранилищах данных, построенных на Apache Hadoop и Hive, "перевариваются" десятки терабайт информации. Для Airbnb анализ пользовательских данных персонализированной поисковой системы, созданной на системе распределённой обработки в режиме реального времени Storm, необходим для принятия практически всех решений по развитию компании. Здесь жизненно необходимы профессионалы data scientist.

Сегодня удовлетворяется только треть потребности на "исследователей данных". Недонасыщенный рынок не может предоставить компаниям квалифицированные кадры в области data mining или прогнозной аналитики, а это ведёт к росту спроса и зарплат. Государственные и частные вузы не справляются с процессом подготовки специалистов по работе с данными.

Data Scientist: личностные особенности

35f7c8691d9f4156911460879e09b4b2[1]
Ряд технических ВУЗов предлагают программу подготовки «магистров наук по науке о данных и менеджменту». Такая специализация потребует от вас глубоких знаний в области математической статистики, машинного обучения, программирования. Однако, теоретическое обучение не будет полноценным без практического опыта, который можно получить только в непосредственной работе, сталкиваясь с реальными проблемами. Только реальные задачи продемонстрирует вам, что выбранный путь — не самый простой в жизни.

Заниматься data science так же трудно, как вообще заниматься наукой. Как и в большинстве обычных научных направлениях, большинство применяемых вами методов не сработает. Невозможно просто зайти в лабораторию или сесть за компьютер, щёлкнуть пальцами и получить результат. Приходится выдумать множество интересных (просто великолепных и оригинальных!) вещей: как улучшить систему, как настроить и оптимизировать выборку, и тому подобное. Больше двух третей ваших идей не сработает. Наибольшая часть времени будет потрачена на неудачи. К этому надо быть готовым.

Чтобы быть хорошим data scientist не достаточно быть просто хорошим программистом. Необходимо в статистике разбираться глубже, чем в программной инженерии. Компетентный data scientist — это, прежде всего, компетентный статистик. Окружающие вас спецы во всём остальном разбираются лучше — и это нормально, но необходимо уметь их слушать, получать от них данные для собственно вашей работы.

Data scientist — это человек, который любит математику. Работодатели, ищущие "исследователя данных", должны в прежде всего обращать внимание на математиков. Вы не изучали математику и боитесь поставить крест на карьере? Есть путь альтернативный — информатика, а ещё лучше, бизнес-информатика. Важен склад ума, понимаете? Можно быть специалистом в нейронауке и заниматься изучением данных — математика примет вас с распростёртыми объятиями.

Погружение в математику не должно мешать изучению компьютерных систем. Иначе проще стать преподавателем. На самом деле, большая проблема в том, что математики не понимают масштаб используемых данных, не понимают саму структуру компьютерных данных и, как следствие, не способны моделировать появление в перспективе системных проблем. Всегда существует брешь между вероятностной математической моделью, которая, как вы предполагаете, соответствует структуре вашей проблемы, и фактическими данным, которые вы пытаетесь анализировать. Собирать статистику — означает метаться между моделью и данными. Очень важно понимать это на глубинном уровне, а не относиться к математике (и компьютерным системам) как к волшебной коробке, куда можно закинуть цифры, повернуть рукоятку и получить результат.

Data Scientist: как им стать

Composition of human head, key symbol and fractal design elements on the subject of encryption, security, digital communications, science and technology
Человек действует сообразно шаблонам, заложенным в голове. При рассмотрении проблемы вы оперируете готовыми моделями поведения. Data scientist работает со случайными величинами и вероятностными моделями, потому что его задача — выявлять самые неожиданные закономерности. Если вы хотите нанять такого специалиста, и признаётесь себе, что не так много знаете о статистике, предложите человеку, которого вы интервьюируете, тест полностью лишенный контекста. Вырванный из контекста. И вы увидите, как он будет обращаться с проблемой не зная, как решить проблему. В этом суть работы — думать не о заранее полученных статистических данных, не о компьютерных моделях решения, а о проблеме. Такое решение демонстрирует способность специалиста оперировать вероятностными моделями со сложными данными.

Итак, вы готовы делать все эти штуки, вы разбираетесь в статистике, понимаете структуру данных и алгоритмы, или вы ученый, понимающий, что лежит в основе моделирования. Теперь вы можете получить работу. Но есть ещё масса всего на свете, чего вы не знаете, того, что трудно понять, потому что этого нет ни в одном из учебников. Например, большинство "исследователей данных" не понимают, как работают команды разработки программного обеспечения. Очень пугает и нервирует, когда вы соприкасаетесь с непонятной предметной областью. Ничего нет унизительного в том, чтобы признать это, начать всё заново — стать учеником более опытных разработчиков.

Наблюдать за развитием программного проекта с нуля — бесценный опыт. Другой способ получить опыт взаимодействия с реальной средой — участвовать в проекте Kaggle. Ресурс используют для решения сложных задач в разных областях знаний (маркетинг, финансы, банковское дело, медицина, страхование, научные исследования). Kaggle превращает бизнес-задачи компаний в структурированный набор данных, с которыми удобно работать.

Data Scientist: минимум знаний

Вот перечень, основанный на анализе тысяч должностей и вакансий, самых необходимых знаний для исследователя данных и мест, где их можно получить в Интернете:

Python Python (Питон)

  1. Learn Python Programming From Scratch by Udemy (eng);
  2. Learn to program in Python by CodeCademy (eng);
  3. LearnPython.org interactive Python tutorial (eng);
  4. Кафедра Информационных систем НИУ ЮУрГУ (рус).
expand-your-reach-150x150 Машинное обучение

  1. Machine learning online (eng);
  2. Operational Intelligence and Machine Data with Splunk (eng);
  3. Кафедра Информационных систем НИУ ЮУрГУ (рус).
r-programming-1-l-280x280-150x150 Язык R

  1. R Basics – R Programming Language Introduction by Udemy (eng);
  2. Introduction to R at DataCamp (eng);
  3. Learn R at Code school (eng);
  4. Кафедра Информационных систем НИУ ЮУрГУ (рус).
big-data-icon-150x150

Большие данные

  1. Big Data University (eng);
  2. Big Data and Hadoop Essentials by Udemy (eng);
  3. Basic overview of Big Data Hadoopby- Udemy (eng);
  4. Кафедра Информационных систем НИУ ЮУрГУ (рус).
Icon_63-256-150x150 Статистика

  1. Statistics One by Coursera (eng);
  2. Statistics and Probability (eng);
  3. Probability & Statistics (eng);
  4. Кафедра Информационных систем НИУ ЮУрГУ (рус).
download-150x150 Интеллектуальный анализ данных

  1. Data Mining and Web Scraping: How to Convert Sites into Data by Udemy (eng);
  2. Data Mining by Coursera (eng);
  3. Кафедра Информационных систем НИУ ЮУрГУ (рус).
mysql_dock_icon_by_presto_x-150x150 SQL

  1. Interactive Online SQL Training for Beginners (eng);
  2. Sachin Quickly Learns (SQL) – Structured Query Language by Udemy (eng);
  3. SQL Tutorial by w3schools (eng);
  4. Кафедра Информационных систем НИУ ЮУрГУ (рус).
Apps-File-Java-icon1-150x150 Java

  1. Learn Java: The Java Programming Tutorial For Beginners by Udemy (eng);
  2. Learn Java – Free Interactive Java Tutorial (eng);
  3. Learn Java Programming From Scratch – Udemy (eng);
  4. Кафедра Информационных систем НИУ ЮУрГУ (рус).

Data Scientist: не быть тем, кем ты не являешься

dbfbcb8e-89fc-4ff2-a152-2adfe9bb4a21
Не пытайтесь быть тем, кем вы не являетесь. Не редко data scientist воспринимают как аналитика данных. Аналитик может сказать: «Если мои инструменты анализа данных не могут ответить на поставленный вопрос, то вопрос остаётся без ответа». Здесь мы задаём вопрос базе данных и, если он не вернется через полчаса, мы отметаем его и переходим к следующему.

Data scientist обязан думать по другому: «Если мои инструменты анализа не могут ответить на поставленный вопрос, значит мне нужны другие инструменты и данные». Этот пример объясняет лучше всего вышесказанного, как быть data scientist. Учёный не говорит: я не могу ответить на вопрос, пойду займусь чем-нибудь другим. Ученый продолжает думать о вопросе и выяснить способы, с помощью которых сможет на него ответить.

По мотивам: Профессия Data Scientist: как не ошибиться с выбором


2 нравится это

Автор

Вадим Валентинович Костерин

Директор Инженерного центра корпоративных информационных систем Высшей школы экономики и управления НИУ Южно-Уральский государственный университет. Лауреат ВДНХ, награждён серебряной медалью. Лауреат Всероссийских, международных и региональных (1998–2015 гг.) выставок, за множеством которых перечисление потеряло смысл.

Добавить комментарий