Есть забавный парадокс: школьников натаскивают на зазубривание правил и случаи их применения, но чем больше ученик знает правил и исключений, тем чаще совершает ошибку. В диктанте из текстов классической русской литературы изобилие запятых уточняющего характера приводит к мысли, что не поставленная запятая есть ошибка, а грамотная работа — это сочинение с большим количеством запятых. Может быть, если вы хороший писатель, то используете много запятых уточняющего характера, однако, это не тот случай, когда множество запятых делает вас хорошим писателем…
Подобная интерпретация запятых в классической русской литературе — пример некачественного анализа данных, построенного на слабой эрудированности и понимании математической статистики. Эти факторы + страстное желание развиваться в области информационных технологий — ключевые в понимании специализации «исследователь данных».
Подготовлено по материалам выступления сотрудника Airbnb, специалиста по data science
Не будем подробно останавливаться на том, почему профессия data scientistએ отмечается как одна из самых привлекательных и перспективных в мире. По результатам исследования 330 млн. профилей зарегистрированных в LinkedIn, ключевыми компетенциями, которые получал народ в 2014 году, стали статистический и интеллектуальный анализ данных. Мы живем в мире, который всё больше и больше "управляется цифрами", а бизнесмены стали усиленно нанимать "исследователей данных" для хранения, поиска и анализа информации. В США, Индии и Франции, эти навыки пользуются повышенным спросом. Достаточно упомянуть, что число вакансий в этом направлении растёт по экспоненте, а по расчётам McKinsey Global Instituteએ к 2018 году в одной только Америке понадобится дополнительно 190 тысяч специалистов по данным. Кроме того, McKinsey отмечают, что дополнительно необходимо обучить миллионы менеджеров базовым навыкам работы с данными. Это огромный рынок, который только начинает формироваться.
Однако, проблемы big dataએ и способы их решения возникли не вчера. Объём накопленных за годы работы только в Airbnbએ архивных данных составляет несколько петабайт. Ежедневно в хранилищах данных, построенных на Apache Hadoopએ и Hiveએ, "перевариваются" десятки терабайт информации. Для Airbnbએ анализ пользовательских данных персонализированной поисковой системы, созданной на системе распределённой обработки в режиме реального времени Storm, необходим для принятия практически всех решений по развитию компании. Здесь жизненно необходимы профессионалы data scientistએ.
Сегодня удовлетворяется только треть потребности на "исследователей данных". Недонасыщенный рынок не может предоставить компаниям квалифицированные кадры в области data miningએ или прогнозной аналитики, а это ведёт к росту спроса и зарплат. Государственные и частные вузы не справляются с процессом подготовки специалистов по работе с данными.
Data Scientist: личностные особенности
Ряд технических ВУЗов предлагают программу подготовки «магистров наук по науке о данных и менеджменту». Такая специализация потребует от вас глубоких знаний в области математической статистики, машинного обучения, программирования. Однако, теоретическое обучение не будет полноценным без практического опыта, который можно получить только в непосредственной работе, сталкиваясь с реальными проблемами. Только реальные задачи продемонстрирует вам, что выбранный путь — не самый простой в жизни.
Заниматься data scienceએ так же трудно, как вообще заниматься наукой. Как и в большинстве обычных научных направлениях, большинство применяемых вами методов не сработает. Невозможно просто зайти в лабораторию или сесть за компьютер, щёлкнуть пальцами и получить результат. Приходится выдумать множество интересных (просто великолепных и оригинальных!) вещей: как улучшить систему, как настроить и оптимизировать выборку, и тому подобное. Больше двух третей ваших идей не сработает. Наибольшая часть времени будет потрачена на неудачи. К этому надо быть готовым.
Чтобы быть хорошим data scientistએ не достаточно быть просто хорошим программистом. Необходимо в статистике разбираться глубже, чем в программной инженерии. Компетентный data scientistએ — это, прежде всего, компетентный статистик. Окружающие вас спецы во всём остальном разбираются лучше — и это нормально, но необходимо уметь их слушать, получать от них данные для собственно вашей работы.
Data scientist — это человек, который любит математику. Работодатели, ищущие "исследователя данных", должны в прежде всего обращать внимание на математиков. Вы не изучали математику и боитесь поставить крест на карьере? Есть путь альтернативный — информатика, а ещё лучше, бизнес-информатика. Важен склад ума, понимаете? Можно быть специалистом в нейронауке и заниматься изучением данных — математика примет вас с распростёртыми объятиями.
Погружение в математику не должно мешать изучению компьютерных систем. Иначе проще стать преподавателем. На самом деле, большая проблема в том, что математики не понимают масштаб используемых данных, не понимают саму структуру компьютерных данных и, как следствие, не способны моделировать появление в перспективе системных проблем. Всегда существует брешь между вероятностной математической моделью, которая, как вы предполагаете, соответствует структуре вашей проблемы, и фактическими данным, которые вы пытаетесь анализировать. Собирать статистику — означает метаться между моделью и данными. Очень важно понимать это на глубинном уровне, а не относиться к математике (и компьютерным системам) как к волшебной коробке, куда можно закинуть цифры, повернуть рукоятку и получить результат.
Data Scientist: как им стать
Человек действует сообразно шаблонам, заложенным в голове. При рассмотрении проблемы вы оперируете готовыми моделями поведения. Data scientist работает со случайными величинами и вероятностными моделями, потому что его задача — выявлять самые неожиданные закономерности. Если вы хотите нанять такого специалиста, и признаётесь себе, что не так много знаете о статистике, предложите человеку, которого вы интервьюируете, тест полностью лишенный контекста. Вырванный из контекста. И вы увидите, как он будет обращаться с проблемой не зная, как решить проблему. В этом суть работы — думать не о заранее полученных статистических данных, не о компьютерных моделях решения, а о проблеме. Такое решение демонстрирует способность специалиста оперировать вероятностными моделями со сложными данными.
Итак, вы готовы делать все эти штуки, вы разбираетесь в статистике, понимаете структуру данных и алгоритмы, или вы ученый, понимающий, что лежит в основе моделирования. Теперь вы можете получить работу. Но есть ещё масса всего на свете, чего вы не знаете, того, что трудно понять, потому что этого нет ни в одном из учебников. Например, большинство "исследователей данных" не понимают, как работают команды разработки программного обеспечения. Очень пугает и нервирует, когда вы соприкасаетесь с непонятной предметной областью. Ничего нет унизительного в том, чтобы признать это, начать всё заново — стать учеником более опытных разработчиков.
Наблюдать за развитием программного проекта с нуля — бесценный опыт. Другой способ получить опыт взаимодействия с реальной средой — участвовать в проекте Kaggle. Ресурс используют для решения сложных задач в разных областях знаний (маркетинг, финансы, банковское дело, медицина, страхование, научные исследования). Kaggle превращает бизнес-задачи компаний в структурированный набор данных, с которыми удобно работать.
Data Scientist: минимум знаний
Вот перечень, основанный на анализе тысяч должностей и вакансий, самых необходимых знаний для исследователя данных и мест, где их можно получить в Интернете:
Python (Питон) | |
Машинное обучение | |
Язык R | |
Большие данные | |
Статистика | |
Интеллектуальный анализ данных | |
SQL | |
Java |
Data Scientist: не быть тем, кем ты не являешься
Не пытайтесь быть тем, кем вы не являетесь. Не редко data scientistએ воспринимают как аналитика данных. Аналитик может сказать: «Если мои инструменты анализа данных не могут ответить на поставленный вопрос, то вопрос остаётся без ответа». Здесь мы задаём вопрос базе данных и, если он не вернется через полчаса, мы отметаем его и переходим к следующему.
Data scientist обязан думать по другому: «Если мои инструменты анализа не могут ответить на поставленный вопрос, значит мне нужны другие инструменты и данные». Этот пример объясняет лучше всего вышесказанного, как быть data scientistએ. Учёный не говорит: я не могу ответить на вопрос, пойду займусь чем-нибудь другим. Ученый продолжает думать о вопросе и выяснить способы, с помощью которых сможет на него ответить.
По мотивам: Профессия Data Scientist: как не ошибиться с выбором
Кто такой Data Scientist или не ошибись с выбором by Костерин Вадим Валентинович is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.