По-настоящему хороший аналитик должен будоражить людей… Я знаю, что я первый получаю данные, а значит, я первый узнаю историю. Открывать что-то новое увлекательно.
Человеческий фактор — важный компонент компании с управлением на основе данных. Кто такие специалисты по аналитике и как должна быть организована их работа?
Эта глава посвящена специалистам по аналитике: разным их типам и навыкам, которыми они должны обладать. Мы рассмотрим самые разные позиции и познакомимся с людьми, которые их занимают. Кроме того, мы обсудим плюсы и минусы разных организационных структур для выполнения аналитической работы.
В компании с управлением на основе данных, вероятнее всего, есть разные специалисты по аналитике, собранные в многочисленные команды. Есть разные описания этих аналитических позиций, и многие из перечисляемых навыков пересекаются. Я предлагаю собственную версию общего описания аналитиков, специалистов по работе с данными, бизнес-аналитиков, специалистов по обработке данных, по статистике, по количественному и экономическому анализу, финансовых аналитиков и специалистов по визуализации данных. Для каждого из этих типов специалистов я опишу навыки, которыми они должны обладать, инструменты, которыми они пользуются, а также приведу конкретные примеры. В вашей компании могут быть другие названия для этих специалистов, но без описанных навыков обычно невозможно эффективно работать с данными.
Это самый широкий и общепринятый термин, по крайней мере по сравнению с более узкими профессиональными ролями, о которых пойдет речь далее. В большинстве случаев их опыт можно условно представить в виде буквы «Т»: они обладают скромным опытом по целому спектру навыков, но очень глубокими знаниями и навыками в своей основной профессиональной области. В зависимости от своего профессионального опыта специалисты по аналитике могут быть как новичками, которые занимаются в основном сбором и подготовкой данных, так и высококвалифицированными аналитиками со специализацией по определенной теме. Такие аналитики часто бывают главными экспертами в разных областях, таких как работа с мнением клиентов, программы лояльности, электронный маркетинг, геоспециализированная военная разведка или отдельные сегменты фондового рынка. Конкретная роль в компании зависит от ее размера, зрелости, области специализации и рынка. В любом случае результат работы аналитика, скорее всего, будет представлять собой сочетание анализа и отчетов. Аналитики могут отличаться по степени владения техническими навыками и знания профессиональной области.
С одной стороны, есть аналитики, работающие исключительно в Excel и с помощью дашбордов. А с другой стороны, есть такие, как Самарт, который сам пишет программные коды на языке Scala для обработки большого объема сырых данных в компании Etsy. Изначально Самарт занимался политологией, а навыки аналитической работы получил в предвыборном штабе Барака Обамы во время работы в кампании 2012 года. Затем с помощью стандартной триады инструментов, наиболее популярных у аналитиков (R, SQL и Python), он начал проводить исследования в сети и с электронными рассылками. Сегодня он работает аналитиком в компании Etsy в Нью-Йорке, где продолжает проводить свои исследования, а также осуществляет анализ истории посещений пользователей и трендов, составляет отчеты и аналитические доклады. В компании он взаимодействует с продакт-менеджерами, техническими специалистами и дизайнерами и помогает им разрабатывать эксперименты, анализировать их с помощью Scala/Scalding, R и SQL и интерпретировать полученные результаты. Кроме того, он готовит общие аналитические отчеты для компании, а также более узконаправленные справки для руководителей, чтобы помочь им разобраться в трендах, поведении пользователей или других специфических вопросах.
Саманта — аналитик совсем другого рода. У нее степень бакалавра по бухгалтерскому учету, и она работает специалистом по данным в страховой компании Progressive Insurance в Кливленде, штат Огайо, в команде финансовых специалистов отдела по работе с исковыми заявлениями. Она занимается вопросами выморочного имущества (это категория наследуемого имущества, которая отходит государству в случае отказа от его получения), проводит аудит, анализ и проверяет соответствие законам штата в данной области. В ее работу входит подготовка отчетов и отслеживание собственности, от которой отказались, поиск интересных проектов, суммирование финансовых рисков, связанных с этими вопросами. В своей работе она использует такие инструменты, как SAS, Excel и Oracle, а также специализированные инструменты, такие как ClaimStation. От результатов ее работы зависит целый ряд аспектов, которыми занимаются другие специалисты в компании, в том числе это налог на прибыль корпораций, финансовые операции, ИТ, исковые заявления крупного бизнеса, а также исковые заявления отдельных людей. По словам Саманты, ее мотивирует, когда она «видит, что ее анализ приносит финансовую выгоду как компании, так и застрахованным у нас клиентам». В ее работе особенно важно внимание к деталям, поскольку она работает в жестко регулируемой отрасли, а в сферу ее обязанностей входит проверка деятельности компании на соответствие законам штата.
Эти специалисты в первую очередь несут ответственность за сбор и обработку данных и перевод их в формат, удобный для проведения анализа. Они отвечают за аспекты операционной деятельности, такие как скорость обработки информации, масштабирование, пиковые нагрузки и ведение журнала операций. Кроме того, они могут отвечать за разработку инструментов, которые используют аналитики.
Знакомьтесь, это Анна. Во время подготовки диссертации по физике она поняла, что на самом деле ей интересно заниматься данными. Она окончила обучение с дипломом магистра и начала работать в компании Bitly в качестве специалиста по обработке данных. Анна занимается визуализацией больших объемов данных, обрабатывает данные с помощью набора инструментов Hadoop, внедряет алгоритмы машинного обучения. Затем она присоединилась к проекту Rent The Runway и сейчас работает там инженером по обработке данных. При помощи таких инструментов, как SQL, Python, Vertica, она поддерживает инфраструктуру данных, на которой держится аналитический процесс, разрабатывает новые инструменты для повышения надежности данных, их своевременности и масштабируемости, а также взаимодействует с другими техническими специалистами компании, чтобы понимать любые изменения, которые они совершают и которые могут повлиять на данные.
Эти специалисты обычно выступают связующим звеном между руководством (например, руководителями отделов) и технологическим отделом (например, разработчиками программного обеспечения). Их функции заключаются в улучшении бизнес-процессов или помощи в разработке новых или совершенствовании существующих бэкэнд- и фронтэнд-систем, например, в их функции входит улучшение воронки продаж на сайте.
Линн — старший бизнес-аналитик крупного интернет-магазина . У нее степень бакалавра в области изобразительных искусств, опыт разработчика приложений, сертификат Профессионала в управлении проектами, кроме того, почти десятилетний опыт работы в области управления проектами и бизнес-аналитике, преимущественно в сфере книжной электронной коммерции. В функции Линн входит проведение анализа требований проекта, понимание потребностей клиентов, совершенствование бизнес-процессов, а также управление проектами, часто на основе гибкого подхода (Agile). Линн делится своими впечатлениями: «Ни один мой рабочий день не похож на другой. Сегодня я могу беседовать с пользователями на тему их ожиданий (то есть с предпринимателями, которые пользуются информационной системой управления товарами Macy), завтра я делаю обзор ответов пользователей вместе с разработчиками или отвечаю на вопросы разработчиков относительно ответов пользователей».
Этот широкий термин применяется для обозначения специалистов в области работы с большими данными, обладающих математическими или статистическими знаниями, обычно с более высоким уровнем образования в точных науках, а также развитыми навыками программирования. Мне нравится лаконичное определение Джоша Уиллса: «Это человек, который разбирается в статистике лучше любого программиста и способен написать программный код лучше любого статистика». Тем не менее это не полное описание его функций, которые могут включать разработку «продуктов на основе данных», таких как рекомендательный сервис с применением машинного обучения, или прогнозное моделирование, или обработка естественного языка.
Трей — старший специалист по теории и методам анализа данных интернет-компании Zulily, расположенной в Сиэтле. Особенность этого интернет-магазина — ежедневные распродажи. У Трея степень магистра по социологии. Свое рабочее время Трей делит между самыми разными проектами — от разработки статистических моделей и рекомендательных алгоритмов для улучшения опыта пользователей до помощи менеджерам продуктов в интерпретации результатов A/B-тестирования. В основном он пользуется языком программирования Python (с такими библиотеками, как Pandas, Scikit-learn и Statsmodels), а также анализирует данные, используя SQL и системы управления базами данных Hive. Он обладает нужными техническими навыками для построения статистических моделей и считает способность доступно объяснить эти модели неспециалистам одним из важнейших качеств профессионала, занимающегося работой с данными. Любовь к обучению нашла отражение в его хобби: он ведет блог, в котором объясняет концепции работы с данными на примере данных по американскому футболу, а также рассказывает о том, как лучше понимать спортивную статистику.
Это квалифицированные сотрудники, которые занимаются в компании статистическим моделированием. Обычно у них не ниже степени магистра в области статистики, чаще всего они востребованы в таких сферах, как страхование, здравоохранение, исследования и разработки, государственное управление. Четверть всех специалистов по статистике в США работают на федеральное правительство, правительства штатов или органы местного самоуправления. Часто они занимаются не только анализом данных, но и разработкой опросов, исследований, а также сбором протоколов для получения сырых данных.
Шон — специалист по статистике, поддерживающий проведение количественных маркетинговых исследований в офисе Google в Боулдере. У него степень бакалавра в области математики и научных вычислений и Ph.D. в области статистики. Сегодня Шон также обеспечивает поддержку сотрудникам в других командах, часто при возникновении необходимости переходя из проекта в проект. С одной стороны, он может заниматься сбором, очисткой, визуализацией и оценкой качества данных из нового источника. А с другой стороны, он опирается на свои технические навыки для разработки алгоритмов кластеризации, чтобы улучшить онлайновые геоэксперименты по поиску, разработать байесовские модели временных рядов или оценить уровень индивидуального просмотра на основе данных домохозяйств с помощью алгоритма Random Forests. В основном он пользуется средой R, особенно для анализа и визуализации данных (в частности, такими пакетами, как ggplot2, plyr/dplyr и data.table). Помимо этого он применяет в своей работе языки программирования типа SQL и пользуется Python и Go.
Специалисты по количественному анализу, как правило, обладают хорошей математической подготовкой и обычно работают в финансовом секторе, моделируя управление риском и движение фондового рынка со стороны как покупателей, так и продавцов. Например, пенсионный фонд может нанять кванта, чтобы тот сформировал оптимальный портфель облигаций, способный покрыть будущие обязательства фонда. Квантами могут стать бывшие математики, физики или технические специалисты. Некоторые из них — особенно аналитики алгоритмической торговли (самые высокооплачиваемые специалисты из всех аналитиков) — обладают уверенными навыками программирования на таких языках, как C++, они способны обрабатывать данные и предпринимать действия с крайне небольшим временем ожидания.
Сатиш — квант в компании Bloomberg в Нью-Йорке. У него глубокие знания в области прикладной математики и проектирования электрических систем, о чем свидетельствует его степень Ph.D. Он пользуется средой R (ggplot2, dplyr, reshape2), языком программирования Python (scikit-learn, pandas) и Excel (для сводных таблиц) для построения самых разных статистических моделей, а затем при помощи C/C++ запускает некоторые из них. Эти модели часто определяют относительную ценность различных категорий активов с фиксированной доходностью. Помимо этого, он выступает в роли внутреннего консультанта, и ему приходится решать самые разные задачи — от кредитных моделей для ценных бумаг с ипотечным покрытием до прогнозирования объема ветровой энергетики в Великобритании. По его словам, «огромный объем финансовых и аналитических данных, доступный для специалистов Bloomberg, беспрецедентен для отрасли. Поэтому нас воодушевляет осознание того, что большинство предлагаемых нами моделей имеют ценность для всех наших клиентов». Одна из сложностей работы с финансовыми данными заключается в том, что у них очень «длинный хвост», и таким образом в моделях необходимо тщательно учитывать эти редкие, нестандартные события.
Специалисты, которые занимаются внутренней финансовой отчетностью, аудиторскими проверками, прогнозированием, анализом эффективности производственной деятельности и так далее. У Патрика степень бакалавра по философии, политологии и экономике, а также опыт работы в качестве специалиста по анализу рынков заемного капитала в компании RBS Securities. Сейчас он занимает позицию менеджера по розничному финансированию и стратегии в компании Warby Parker в Нью-Йорке, где отвечает за планирование и анализ финансов в розничной сети, а также разработку стратегии по открытию новых магазинов. Он проводит много времени, работая с Excel, управляя прибылями и убытками склада и ключевыми показателями результативности (KPIs), разрабатывая модели будущей деятельности, изучая отклонения в моделях и проводя анализ развития рынка. Сегодня Патрик тратит около 60% рабочего времени на подготовку отчетов, а оставшееся время — на проведение анализа, тем не менее это соотношение увеличивается в пользу времени на аналитическую работу по мере того, как улучшается его знакомство с инструментами бизнес-аналитики в компании и повышаются навыки работы с этими инструментами.
Это люди с развитым чувством прекрасного, которые создают инфографику, дашборды и другие графические элементы. Кроме того, они могут заниматься написанием программного кода при помощи JavaScript, CoffeeScript, CSS и HTML и работают с библиотеками визуализации данных, такими как D3 (эффективная и красивая библиотека визуализации, описанная в книге Скотта Мюррея Interactive Data Visualization for the Web) и HTML5.
Джим (Джим В., см. рис. 4.1) получил степень магистра в области теории и практики вычислительных систем со специализацией в сфере биоинформатики и машинного обучения. Он работал в компании Garmin, где создавал графические пользовательские интерфейсы для навигационных устройств. После этого в биологическом научно-исследовательском институте он проводил анализ масштабной последовательности данных. Именно тогда он познакомился с библиотекой визуализации данных D3 и начал вести блог, посвященный этой теме, где публикует доступные и понятные руководства для пользователей. Сегодня Джим занимает пост специалиста по визуализации данных и специалиста по теории и методам анализа данных в лаборатории данных корпорации Nordstrom в Сиэтле. В своей работе он использует такие инструменты, как Ruby, Python и среду R (в частности пакеты ggplot2 и dplyr). Он обеспечивает поддержку систем персонализации и рекомендаций, а также осуществляет визуализацию данных. Основными его «клиентами» становятся сотрудники из других подразделений компании. В крупных компаниях иногда могут быть дополнительные специалисты, которые занимаются исключительно подготовкой отчетов или применением определенного инструмента бизнес-аналитики. Другие специалисты могут работать только с инструментами обработки и анализа больших данных, например Hadoop или Spark.
Рис. 4.1. Профиль команды лаборатории данных компании Nordstrom (по состоянию на 2013 год). МО = машинное обучение. DevOps — относительно новый термин, обозначающий интеграцию разработки и эксплуатации программного обеспечения
Как вы сами видите, названия специалистов, работающих с данными, как и их функции, во многом пересекаются. В основном они обрабатывают данные с помощью разных языков программирования типа SQL.
В одних случаях требуются более серьезные навыки программирования, а в других можно обойтись и без них. Нередко требуется построение статистических моделей с применением SAS или R. В большинстве случаев работа аналитика объединяет подготовку отчетов и собственно проведение анализа.
Аналитика требует слаженной командной работы. В компании с управлением на основе данных, в которой четко налажены рабочие процессы, присутствуют как аналитики разных типов, так и сотрудники с дополняющими их навыками. При найме новых сотрудников принимается во внимание «портфолио» совокупных навыков всей команды, чтобы найти таких потенциальных кандидатов, которые «закроют» и усилят проблемные области.
Например, на приведен профиль команды лаборатории по работе с данными компании Nordstrom в 2013 году. Легко можно определить сильнейших математиков и статистиков в команде (Элисса, Марк и Эрин), сильнейших разработчиков (Дэвид и Джейсон В.), а также специалиста по визуализации данных (Джим В., о котором шла речь ранее). Я поинтересовался у директора лаборатории Джейсона Гоуэнса, что он думает насчет расширения команды, на что он ответил: «Во-первых, мы придерживаемся «правила двух пицц» Джеффа Безоса, а потому количество членов нашей команды вряд ли сильно изменится. Мы уверены, что такой подход помогает нам сконцентрироваться на том, что нам кажется серьезными возможностями. Во-вторых, каждый член команды привносит в нее что-то уникальное, что помогает расти всем остальным».
Еще в момент формирования команды они поступили весьма мудро, наняв сильного специалиста по визуализации данных, хотя многие другие команды делают этот шаг гораздо позже. Наличие красиво оформленных и подтвержденных концепций, основанных на данных, помогло команде лаборатории утвердить свой авторитет в рамках всей компании. «Джим очень помог нам вызвать интерес к нашей работе у остальных сотрудников, с помощью своих навыков визуализации данных он буквально вдохнул жизнь в то, что мы делаем», — говорит Джейсон.
Как уже отмечалось, профессиональные знания и навыки специалистов по теории и методам анализа данных, которые часто приходят в коммерческий сектор из академической среды, условно можно изобразить в виде буквы «Т». А если у эксперта две основные области специализации — то в виде числа пи (π). Найм новых сотрудников и формирование команд можно назвать «аналитическим тетрисом».
В 2012 году Харрис и др. провели опрос среди нескольких сотен специалистов по работе с данными и разделили их на пять групп по ключевому навыку, как они сами себя охарактеризовали:
Они выделили четыре кластера ролей.
Специалисты по работе с данными, у которых лучше всего развиты навыки, связанные с ведением бизнеса (форма буквы «Т»), и в меньшей степени развиты остальные навыки.
Специалисты, у которых лучше всего развиты навыки по работе со статистикой и в меньшей степени — навыки в области машинного обучения / больших данных, бизнеса и программирования.
Эксперты с двумя областями специализации (форма числа Пи) — с сильными навыками в сфере программирования и машинного обучения / больших данных и умеренными навыками по трем оставшимся категориям.
Специалисты, «которые в среднем не считаются ни самыми сильными, ни самыми слабыми ни в одной из групп по ключевому навыку».
Профили этих четырех ролей представлены на рис. 4.2. Легко отметить широкое разнообразие среди этих четырех типов.
Рис. 4.2. Профиль навыков четырех кластеров респондентов
Источник: Харрис и др., 2013, рис. 3.3
Эти четыре роли примерно соответствуют названиям позиций специалистов по работе с данными (табл. 4.1). В более крупных и сложно организованных компаниях можно выделить больше ролей, в компаниях малого бизнеса, вероятно, меньшее количество специалистов будет выполнять более широкие функции. Кроме того, стоит отметить, что, хотя Харрис и др. назвали творческих специалистов «ни самыми сильными, ни самыми слабыми ни в одной из групп по ключевому навыку», они не выделили при этом визуализацию и коммуникацию в отдельную категорию по ключевому навыку, хотя это чрезвычайно важные навыки для команды. Проблема с данными также заключается в слабости опросов: они ограничены теми категориями, которые изначально предлагают авторы исследования. В данном случае было важно понять, что творческие специалисты — часть успешных команд, но нет ясности относительно их вклада в общий успех.
Таблица 4.1. Соответствие аналитических ролей, перечисленных ранее в этой главе, и ролей, выделенных Харрисом и др. (2013)
Предприниматель | Творческий специалист | Разработчик | Исследователь |
Бизнес-аналитик Аналитик Специалисты по экономическому анализу и финансовые аналитики | Специалист по визуализации данных | Data Scientist Инженеры в области обработки данных и анализа | Специалист по статистике Квант |
В идеале при найме новых сотрудников руководителю следует принять во внимание три уровня.
Насколько подходит кандидат? Обладает ли он нужными навыками, потенциалом и стремлением, которые ищет компания?
Насколько кандидат впишется в команду и сможет ли закрыть слабые места?
Насколько профиль команды соответствует поставленным перед ней задачам? То есть каким должен быть профиль команды, чтобы она оптимально выполняла поставленные перед ней задачи? Например, если задача главным образом состоит в разработке финансовых прогнозных моделей, то состав команды будет отличаться от того, который требуется, если задача заключается в оптимизации процесса обслуживания клиентов.
Какие качества определяют хорошего аналитика?
Он не обязательно должен иметь научную степень по математике или статистике, но его не должна пугать, по крайней мере, описательная статистика (медиана, мода, квартиль и так далее, см. ), и он должен быть готов обучаться.
Если эти цифры, отчеты и результаты анализа попадают на стол к руководителю и влияют на принятие бизнес-решений, лучше, если они будут правильными. И лучше, если аналитик всегда будет придерживаться правила «семь раз отмерь, один отрежь».
Хороший аналитик интуитивно понимает, когда что-то не так с сырыми или агрегированными данными или результатами анализа. Во-первых, он прогнозирует, какие значения были бы более вероятны. Во-вторых, ставит под сомнение качество данных, еще раз проверяет их источник и расчеты, когда показатели отклоняются от ожидаемых.
Аналитик презентует результаты своей работы коллегам (руководителям). Если эти результаты неожиданные или отражают неэффективность в каких-то аспектах деятельности, коллеги могут поставить их под вопрос, а потому аналитик должен обладать уверенностью в себе, чтобы отстаивать свою точку зрения.
Частично задача аналитика состоит в том, чтобы извлекать из информации полезные для бизнеса уроки и выводы, так что он постоянно должен проявлять любопытство, выдвигая разные гипотезы и тестируя интересные аспекты данных.
Работа аналитика теряет всякий смысл, если ее результаты не передаются людям, принимающим решения, которые способны ими воспользоваться. Аналитику необходимо уметь рассказать увлекательную и связную историю на основе данных и результатов анализа. Для этого он должен обладать навыками визуализации данных и уметь убедительно формулировать свои мысли в устной и письменной форме (подробнее об этом в ).
Многие факторы находятся вне зоны контроля аналитика, в том числе точность или доступность источника данных, утерянные данные, меняющиеся требования, скрытая необъективность в данных, которая становится очевидной только после выполнения анализа и приводит к необходимости переделывать все заново. Без терпения здесь не обойтись.
Точно так же, как многим программистам просто нравится процесс написания кода, некоторым людям информация нравится как ресурс, благодаря которому им удается понять окружающий их мир и оказать на него влияние. Им просто нравится пытаться во всем разобраться досконально. Нанимайте таких людей.
Это качество присуще не только аналитикам. Успеха добиваются те, кто стремится узнавать новое, следит за новостями в своей профессиональной области, учится, чтобы совершенствовать свои знания и навыки.
Аналитик должен уметь концентрироваться на правильных вопросах. Иногда бывает трудно удержаться, чтобы не свалиться в «кроличью нору» и не потратить кучу времени на изучение отдельного пограничного случая, который не окажет никакого влияния на бизнес. Подобно хорошему редактору, аналитик всегда должен держать в голове общую картину и точно знать, в какой момент нужно остановиться и переключиться на что-то другое, чтобы более эффективно потратить свое время.
Я спросил у Дэниела Танкеланга, отвечающего за качество поиска в социальной сети LinkedIn, чем он руководствуется при найме на работу аналитиков. Он ответил:
По моему мнению, аналитику необходимы три качества. Во-первых, он должен быть умным, способным неординарно решать задачи и не только обладать аналитическими навыками, но и знать, как и когда их применять. Во-вторых, он должен быть не просто теоретиком, а демонстрировать, что у него есть и способность, и горячее желание реализовывать свои решения на практике посредством подходящих инструментов. В-третьих, у него должно быть понимание того продукта, с которым он работает, основанное на опыте или интуиции, он должен уверенно ориентироваться в этой области и ее проблемах, и он должен задавать правильные вопросы.
Кен Рудин, глава аналитики социальной сети Facebook, уверен:
С помощью науки, технологий и статистики можно найти ответы, но по-прежнему большим искусством остается умение задавать правильные вопросы… Сегодня недостаточно нанимать людей с научной степенью в области статистики. Нужно быть уверенным, что у этих людей есть деловая хватка. Мне кажется, деловой подход становится самым важным активом и критическим навыком, которым должен обладать каждый аналитик.
Как понять, есть ли у кандидата на позицию аналитика это качество? В ходе собеседования не концентрируйтесь только на том, как рассчитать тот или иной показатель. Предложите потенциальному сотруднику практический случай из вашего бизнеса и спросите, на какие показатели он бы обратил внимание в этом конкретном случае. Вам все будет ясно из его ответа.
С точки зрения практических навыков, без всяких сомнений, большинство аналитиков во всем мире использует в своей работе Microsoft Word, Excel и PowerPoint в качестве основных инструментов. Они доказали свою эффективность. Тем не менее поразительно, как может сказаться на продуктивности применение нескольких дополнительных инструментов.
Далее мы рекомендуем вам бросить вызов. Если вы аналитик, бросьте вывоз самому себе: в течение следующего месяца или квартала освойте еще один инструмент или программу. Если вы руководите аналитиками, поставьте перед ними такую задачу. Попробуйте и увидите, какой будет результат. Вы будете удивлены.
Стоит обратить внимание на следующие аспекты.
R представляет собой популярную среду для осуществления статистических вычислений и располагает исключительными библиотеками визуализации данных (такими как ggplot2). Например, можно прочитать данные в формате CSV и визуализировать отношения между всеми возможными парами переменных с помощью всего двух команд:
данные<-read.csv(имя_файла.csv);
pairs(данные)
На рис. 4.3 показан результат действия этих двух команд. Во второй панели верхней строки отражена взаимосвязь между шириной чашелистика (ось х) и длиной чашелистика (ось y) цветков ириса.
Рис. 4.3. Результат применения команд (относительно задачи по ирисам) в среде R. Речь идет о наборе данных относительно 150 экземпляров ириса, по 50 экземпляров из трех видов, который собрал ботаник Эдгар Андерсон и сделал знаменитым Рональд Фишер. Корреляция между переменными и разница между тремя видами становится очевидной, если рассмотреть все взаимоотношения в совокупности, как на рисунке
Таким образом, этот инструмент может стать чрезвычайно полезным для быстрого проведения разведочного анализа данных. (Не менее популярны и эффективны неоткрытые SAS и SPSS.) Всего около 6700 пакетов для любых типов данных, моделей, областей и визуализации. Это открытые источники, доступные бесплатно. Если вы уже знакомы со средой R, то можете освоить новый пакет R и расширить свои навыки.
В то время как Excel может быть очень эффективным инструментом, при работе с ним иногда возникают проблемы, связанные с обработкой большого объема данных: при определенном объеме данных и применении функции ВПР (VLOOKUP) программа может сильно затормозить работу компьютера. Именно поэтому язык программирования SQL — ценный инструмент в наборе любого аналитика. Этот язык можно назвать относительно стандартизированным, несмотря на незначительные отличия в языке в разных базах данных (таких как MySQL, PostgreSQL и Access). Так что если вы знакомы с ним, это обеспечит вам свободу переключения между разными реляционными базами данных. Вы сможете делать запросы к базам данных независимо от объема данных (обрабатывать миллионы строк), делиться запросами с коллегами (делиться небольшими текстовыми запросами, а не огромными массивами сырых данных). Кроме того, вы сможете обеспечить воспроизводимость процесса (можно легко повторить процесс анализа еще раз).
Есть множество книг, а также офлайновых и онлайновых курсов, которые могут помочь овладеть SQL. Я рекомендую один из бесплатных онлайновых курсов W3Schools’ SQL Tutorial, так как там пользователь имеет возможность составлять запросы прямо в браузере. Другой подход к обучению заключается в установке базы данных на компьютер пользователя. Установка и конфигурация основных баз данных, таких как MySQL и PostgreSQL, может оказаться делом непростым. Так что я настоятельно рекомендую начать с SQLite: многие приложения в вашем смартфоне используют SQLite для хранения данных. Эта база данных бесплатная, простая в установке, сохраняет данные в единый переносимый файл, с ней вы быстро научитесь составлять SQL-запросы.
Если вы переживаете, что это старая технология, которую скоро затмят новинки, в исследовании O’Reilly 2014 Data Science Salary Survey Кинг и Маголас отмечают: «SQL был самым распространенным инструментом… Даже с бурным развитием технологий по работе с данными нет никаких признаков того, что SQL начинает сдавать позиции».
В случаях, когда команде аналитиков приходится работать с большим количеством файлов с сырыми данными или с файлами большого объема, кто-то — необязательно все, поскольку аналитика все-таки командный спорт, — должен обладать элементарными знаниями Unix для проверки файлов и проведения операций с ними. В качестве альтернативы можно выбрать какой-нибудь из языков программирования, например Python, способный обеспечить эти функции и многие другие. Подробнее об этом в .
ПРИМЕР ЕЩЕ ОДНОГО ИНСТРУМЕНТА: ПОДСЧЕТ СТРОК ПРИ ПОМОЩИ *NIX-УТИЛИТЫ WC
Если вы знакомы со стандартными командами ОС *nix (то есть Unix и Linux), то можете пропустить эту часть. Всем остальным эта информация может оказаться полезной.
Предположим, вы получили данные в формате CSV-файла объемом 10 МВ и вам нужно знать общее количество записей. Как их подсчитать? Открыть файл в Excel, пролистать до конца или воспользоваться комбинацией клавиш CTRL+↓ и посмотреть номер последней строки? Да, можно и так. А что, если файл будет объемом 100 МВ? Конечно, Excel справится и с ним, но на выполнение этой задачи может уйти до десяти минут. Ладно, а как насчет файла объемом 1 GB? Здесь такой подход уже не сработает.
Ок, немного изменим условия задачи: теперь вы имеете дело с тремя CSV-файлами объемом 10 МВ. Открыть каждый из них по отдельности в Excel? Допустим. А если у вас 300 таких файлов? Да, здесь явно нужен другой подход.
А что, если я скажу, что на решение этой задачи потребуется всего несколько секунд? Пакет стандартных команд ОС *nix представляет собой набор небольших специализированных утилит, обеспечивающих выполнение одной конкретной функции. wc представляет собой Unix-утилиту, выводящую количество слов (word count), а также строк и символов.
В: Но у меня нет доступа к *nix! У меня ОС Windows.
О: Ничего страшного, просто установите бесплатно cygwin. Это позволит вам пользоваться командами Unix в ОС Windows.
В: Но у меня нет доступа к *nix! У меня OS X.
О: Mac OS X принадлежит семейству операционных систем Unix. Так что ваша цепочка действий следующая: идете в приложения Applications, открываете утилиты Utilities и кликаете на Terminal. Та-дам! Можете пользоваться командами Unix.
Формат команды элементарный: wc -l filename
wc — утилита для вывода количества слов, –l (символ) обозначает, что требуется вывести количество строк, а не слов, filename — название файла. Например:
$ wc -l weblog_20150302.log
1704190 weblog_20150302.log
($ — это подсказка или напоминание; у вас она может быть другой).
Этот пример показывает, что в файле weblog 1,7 млн строк. Для подсчета строк в каждом файле директории укажите название папки вместо имени файла:
wc -l mydatafiles/
123 file1.csv
456 file2.csv
579 total
Все очень просто. Утилита даже вывела итоговую строку. Я постоянно пользуюсь этой командой при проверке качества данных, чтобы оценить, сколько времени может занять загрузка набора данных в базу данных, а также для проверки, что все данные загрузились полностью.
Надеюсь, вы уловили главное: простые утилиты, научиться пользоваться которыми можно за несколько минут, способны значительно усилить набор аналитических навыков и повысить продуктивность работы.
Каким инструментом или утилитой научиться пользоваться, зависит от того, каким набором навыков вы уже владеете и какие у вас слабые места.
Будьте уверены, слабые места есть у всех. Последуйте моей рекомендации.
Если вам нужен дополнительный стимул, задумайтесь о следующем. В опросе на тему размера оплаты труда специалистов по работе с данными O’Reilly’s 2013 Data Science Salary Survey приняли участие посетители двух крупных конференций Strata в 2012 и 2013 годах, при этом выяснилось следующее: размер оплаты труда положительно коррелировал с количеством инструментов, которыми пользовались респонденты.
В среднем респонденты использовали в работе 10 инструментов и их медианный доход составлял 100 тыс. долл. У тех, кто использовал 15 и более инструментов, показатель медианного дохода был 130 тыс. долл.
Еще более очевидно это отражено в опросе 2014 года (рис. 4.4).
Рис. 4.4. Корреляция между применением разного числа инструментов и оплатой труда специалистов по работе с данными
Источник: опрос 2014 O’Reilly Data Science Salary Survey, рис. 1.13
В 2013 году авторы опроса сделали заключение:
Есть веские основания утверждать, что владение такими инструментами, как R, Python, инструментарием Hadoop, D3, а также масштабируемыми инструментами машинного обучения, свидетельствует о более высокой квалификации аналитика, позволяя ему претендовать на более высокооплачиваемую позицию, чем когда аналитик владеет такими инструментами, как SQL, Excel и платформы RDB [реляционных баз данных]. Мы также пришли к выводу, что чем большим числом инструментов способен пользоваться аналитик, тем лучше: если вы задумываетесь о том, чтобы научиться применять инструмент из набора Hadoop, лучше изучите сразу несколько.
Наконец, опрос 2014 года показал разницу в оплате труда почти в 15 тыс. долл. между аналитиками, умеющими работать с программным кодом, и не умеющими. Так что если это ваше слабое место, окажите себе услугу, научитесь программировать!
Теперь, когда мы рассмотрели типы специалистов по аналитике и их навыки, можно перейти к вопросу организации их работы в контексте компании. Сначала давайте остановимся на двух крайних ситуациях.
Есть центральная команда аналитиков, и все аналитики подотчетны ей. В этом варианте есть много преимуществ. Во-первых, команда может стандартизировать навыки, процесс обучения и применяемый инструментарий, кроме того, аналитики совместно используют ресурсы, что ведет к снижению расходов на приобретение лицензий на ПО. Во-вторых, команде аналитиков бывает легче продвигать результаты аналитической работы в компании. В-третьих, аналитики имеют возможность профессионального и личного общения, они могут чему-то научиться у коллег и поделиться с ними своим опытом. К тому же они ощущают себя частью команды единомышленников. В-четвертых, у них есть или может возникнуть ощущение большей объективности, поскольку успех их работы, как правило, не соотносится с успехом проектов, анализом которых они занимаются. Наконец, они способны продвигать основные источники данных в качестве единственных источников верных данных. Из недостатков этого способа организации работы аналитиков можно выделить то, что они оказываются в некоторой степени удалены от руководителей бизнеса и их целей, в результате чего стиль их работы может стать более бюрократическим. Как отмечает Пиянка Джейн, «все должно подчиняться единому процессу, должны быть расставлены приоритеты и распределены ресурсы».
При децентрализованной организации работы специалисты по анализу данных работают в отдельных подразделениях. Эти аналитики готовят отчеты для своих команд и разделяют их цели и задачи. Иными словами, их цели, отчеты и показатели — это цели, отчеты и показатели подразделения, в котором работает аналитик. Минус этого подхода в том, что аналитик оказывается оторванным от других аналитиков компании. Это приводит к риску избыточных усилий, несовпадения инструментария, навыков, определений показателей и реализации. У аналитиков из разных команд меньше возможность общения и обмена профессиональным опытом. Децентрализованная модель наиболее распространена, ее придерживаются 42% респондентов нашего опроса. По Дэвенпорту и др. (с. 108), это фактор, отражающий «незрелость аналитики». Авторы не поясняют свою позицию, но моя интерпретация заключается в том, что довольно сложно демонстрировать качественные результаты на более высоком уровне аналитической работы, например как в отделе исследования операций, где занимаются оптимизацией или проблемами прогнозирования, без централизованной координации усилий, практического опыта и контроля.
У каждой из этих моделей есть свои плюсы и минусы (они перечислены в табл. 4.2). В первом случае аналитик в большей мере ощущает поддержку, имеет возможность профессионального общения и обмена опытом, у него более четкий карьерный путь. Во втором случае распределение ресурсов зависит от политики руководителя, но предположительно уменьшается срок выполнения работы.
Таблица 4.2. Преимущества централизованной модели организации работы аналитиков над децентрализованной моделью. (Недостатки выступают оборотной стороной преимуществ в любом из столбцов.) Повышение уровня профессионализма может происходить в обоих случаях (см. объяснение в тексте)
Преимущества | Централизованная модель | Децентрализованная модель |
Четкий карьерный путь | + | |
Прямой доступ в любое время | + | |
Более короткий срок выполнения работы | + | |
Концентрация профессиональных знаний и опыта | + | |
Стандартизированный инструментарий и процесс обучения | + | |
Стандартизированные показатели | + | |
Меньше бюрократии | + | |
(Воспринимаемая) объективность | + | |
Более высокий уровень профессиональных знаний и навыков | ? | ? |
Организации, находящиеся на преобразованном уровне, на 63% чаще, чем организации на желательном уровне (см. ), «используют централизованное подразделение как основной источник аналитики». Однако здесь в действие вступают искажающие факторы (в частности, величина компании и общее количество специалистов по анализу), так как в компаниях на преобразованном уровне аналитики также работают в бизнес-подразделениях.
Логично предположить, что при децентрализованной модели у аналитиков сильнее повышается уровень профессиональных знаний, например, у них формируется более глубокое понимание данных по клиентам, аналитических процессов и показателей. К сожалению, при таком уровне экспертных знаний повышается риск для компании в целом, если эти несколько высококлассных специалистов ее покинут. (При централизованной модели более высока вероятность избыточности знаний, так как аналитики переключаются между разными направлениями бизнеса.) Это может означать, что уровень профессиональных знаний в среднем фактически ниже при децентрализованной модели, если аналитики часто увольняются, а на их место приходят новички, на обучение которых требуются годы.
Джеб Стоун считает, что при централизованной модели с несколькими стандартными технологиями:
…чтобы повысить ценность для организации, аналитик должен овладеть этими дополнительными технологиями, обучиться этим смежным специализированным направлениям бизнеса и приблизиться к тому уровню и качеству работы, которые задают старшие аналитики. Без четко обозначенного карьерного пути у аналитиков может оказаться велик соблазн обучиться новым навыкам за счет компании, вне зависимости от того, насколько это ей нужно, а затем перейти к тому работодателю, который будет ему больше платить за эти навыки. И есть еще один аспект: ведущие аналитики, скорее всего, будут избегать компаний с децентрализованной моделью организации аналитической работы, поскольку они знают, что у них уйдет гораздо больше времени на продвижение по карьерной лестнице. К тому же в подобной компании вряд ли будет стимулирующая программа, адекватная их профессиональным достижениям.
В попытках создать структуру, максимально сохраняющую преимущества и минимизирующую недостатки, возникла так называемая смешанная модель — подобная используется в компании Facebook. В ее рамках присутствует центральная команда аналитиков, и таким образом стандартизированы инструментарий, процесс обучения и другие профессиональные аспекты. При этом физически специалисты по работе с данными находятся в разных бизнес-подразделениях и разделяют их цели. Таким образом компании удается извлекать преимущества из тесного взаимодействия разных сотрудников и наличия аналитических стандартов. К недостаткам этой модели можно отнести то, что возникает ситуация, когда аналитикам может быть необходимо отчитываться перед несколькими руководителями: по линии аналитической работы и конкретного бизнес-направления. Это может вести к риску возникновения конфликтов или получения противоречивых посылов.
При децентрализованной модели организации аналитической работы могут потребоваться способы объединения аналитиков, чтобы они могли обмениваться опытом и профессиональными навыками, посещать обучающие мероприятия, обсуждать источники данных, показатели, результаты проведенного анализа. Один из подходов — и именно его мы применяем в компании Warby Parker — заключается в создании гильдии аналитиков, «организованной группы людей, объединенных общим профессиональным или иным интересом». Это позволяет аналитикам из разных подразделений, а в нашем случае из разных зданий, общаться и обсуждать разные вопросы. Кроме того, моя команда специалистов по работе с данными получает возможность проводить обучение инструментам бизнес-аналитики и статистики.
Подобная гильдия напоминает матричную структуру, и для ее создания и функционирования требуется серьезная поддержка со стороны руководителей или начальников подразделений, которым подчиняются эти аналитики, а также со стороны руководителей более высокого уровня. Аналитики должны заручиться согласием своих руководителей на то, что им будут выделять время на участие в гильдии.
Другие виды организационных структур, более характерные для крупных компаний, перечислены ниже.
В некоторых компаниях централизованная модель модифицирована таким образом, что аналитиков нанимают в подразделения в формате консалтинговой структуры. При слабой исполнительной власти есть риск, что аналитик соблазнится на деньги или поддержит более убедительного руководителя, но при этом для компании его работа не будет иметь большой ценности.
Форма централизованной модели, при которой команда аналитиков включена в функциональное бизнес-подразделение и в основном «работает» на него. При этом при необходимости она может решать задачи других подразделений компании. В некоторых случаях вся команда аналитиков может даже перейти в другое подразделение.
Несколько напоминает смешанную структуру, но в большем масштабе, кроме того, ряд аналитических специалистов, таких как специалисты по статистике, остается в «центральном узле». Таким образом, аналитическая работа проводится как в отдельных подразделениях, так и центральной командой специалистов.
В табл. 4.3 перечислены разные организационные структуры и приведены примеры компаний каждого типа. Тем не менее стоит подчеркнуть, что это идеализированные структуры: на практике границы между ними часто размыты, и образуются разные смешанные типы. Например, в компании Warby Parker применяется децентрализованная модель, в которой аналитики отчитываются только перед руководителем по конкретному бизнес-направлению, при этом присутствуют элементы модели центра передового опыта, так как в компании есть центральная команда специалистов по аналитической работе, которые обеспечивают поддержку с точки зрения углубленной аналитики (а также наличие инструментов бизнес-аналитики, обучение специалистов и стандарты деятельности). Однако ожидается, что эта структура будет меняться по мере «взросления» аналитики в организации.
Таблица 4.3. Примеры разных структур организации аналитической работы
Модель организационной структуры | Аналитики отчитываются перед | Примеры | |
центральной аналитической командой | руководителями бизнеса | ||
Централизованная | + | Mars, Expedia, One Kings Lane | |
Децентрализованная | + | PBS, Dallas Mavericks | |
Смешанная | + | + | Facebook, Ford, Booz Allen Hamilton |
Функциональная структура | + | Fidelity | |
Консалтинговая структура | + | eBay, United Airlines | |
Центр передового опыта | + | + | Capital One, Bank of America |
Нет единого ответа на вопрос, какая структура лучше всех. Все зависит от размера компании и области, в которой она действует. Например, не имеет смысла внедрять модель центра передового опыта, если в компании всего пять аналитиков. Она будет эффективна в организациях с числом сотрудников больше 25 тыс. человек. Определенная структура может адекватно отвечать задачам компании на данном этапе ее развития, но по мере роста компании может потребоваться реорганизация этой структуры.
Тем не менее, опираясь на результаты ежегодного технологического исследования Accenture и анализ более 700 специалистов, Дэвенпорт и др. (с. 106) утверждают:
Мы полагаем, что централизованная модель и модель центра передового опыта (или смешанные модели, включающие элементы обеих этих моделей) способны предложить самые существенные потенциальные преимущества тем компаниям, которые готовы предпринять корпоративный подход к аналитике. У аналитиков, работающих в рамках этих моделей, значительно выше уровень вовлеченности, удовлетворенности работой, воспринимаемой поддержки со стороны компании, ресурсов и лояльности по отношению к компании.
В мы обсудим, какое место занимают эти команды в разрезе всей структуры компании в целом и кому из топ-менеджеров компании подчиняются. Однако до этого давайте подробнее изучим то, чем занимаются аналитики, — процесс анализа.