Книга: Много цифр. Анализ больших данных при помощи Excel
Назад: Где я? Что случилось?
Дальше: Подходите ко всему творчески и будьте на связи!

Перед тем как попрощаться

Пользуясь законной возможностью написать это заключение, хочу высказать некоторые мысли о значении практической науки о данных в реальном мире, потому что одних твердых знаний в математике специалисту в этой области явно недостаточно.
Все, кто меня хорошо знает, в курсе, что я – не самая светлая голова. Мои математические способности довольно средние, но я видел, как парни гораздо умнее меня терпят оглушительное фиаско как профессиональные аналитики. Проблема в том, что, несмотря на свой ум, они не знают мелочей, способных стать причиной провала технических новаций в бизнес-среде. Уделив внимание подобным вещам, которые могут привести к успеху или, наоборот, к краху вашего аналитического проекта, а порой и карьеры.

Подход к проблеме

Мой любимый фильм всех времен – это «Тихушники» 1992 года. Главные герои – банда тестировщиков уязвимости под началом Роберта Редфорда – крадут «черный ящик», который можно вскрыть с помощью шифрования RSA. Далее следует бурное веселье. (Если вы его не смотрели, то я вам завидую, потому что у вас есть возможность посмотреть его в первый раз!)
В одной из сцен Роберт Редфорд обнаруживает электронную клавиатуру на закрытой двери офиса в аналитическом центре, в который ему нужно прорваться.
Связь с командой, ждущей в фургоне снаружи, он держит через наушники и микрофон.
«Кому-нибудь доводилось взламывать электронную клавиатуру?» – спрашивает он.
«Это нереально!» – восклицает Сидней Пуатье. Но Дэна Эйкройда, сидящего с ним в фургоне, осеняет идея. Ее незамедлительно транслируют Редфорду в микрофон.
Редфорд кивает головой, говорит: «Хорошо, попробую!» и… просто выбивает дверь.
Понимаете, проблема состояла вовсе не во взломе электронной клавиатуры. Она состояла в попадании в комнату. Дэн Эйкройд понимал это.
Понять, какую именно проблему предстоит решить, и есть фундаментальная задача аналитики. Вы должны изучить ситуацию, процессы, данные и обстоятельства. Вы должны охарактеризовать все, что касается задачи, насколько это возможно, чтобы точно определить, каким будет идеальное решение.
В науке о данных мы часто сталкиваемся с «плохо поставленными задачами»:
• У кого-то в бизнесе возникает проблема.
• Он использует прошлый опыт и (недостаточные?) аналитические знания для описания задачи.
• Со своей концепцией проблемы он идет к аналитику, выдавая ее за хорошо поставленную задачу.
• Аналитик принимает его версию и решает проблему как есть.

 

Такой подход может сработать. Но он не идеален, потому что задача, которую просят решить, часто не несет решения проблемы. А вот если эта задача действительно про ту проблему, то профессиональный аналитик просто не может остаться в стороне.
Нельзя решать проблемы в том виде, в котором они встречаются в бизнес-среде. Если вы носите гордое звание аналитика, никогда не позволяйте себе руководствоваться чужим видением. Найдите общий язык с заказчиками, над чьими проблемами вы работаете, дабы убедиться, что вы решаете нужную задачу. Изучите бизнес-процессы, сгенерированные и сохраненные данные. Поинтересуйтесь, как подобные задачи решаются сегодня и какие параметры при этом используются (или игнорируются), приводя в итоге к успеху.
Решайте правильную, хотя порой и искаженную задачу. Никакая математическая модель не может крикнуть: «Эй, ты отлично сформулировал эту оптимизационную модель, но, мне кажется, тебе не стоит городить огород, а лучше вернуться на шаг назад и внести небольшие изменения в свой бизнес». Поэтому учитесь общаться!

Нам нужно больше «переводчиков»

Если вы прочитали эту книгу, то можно с уверенностью утверждать: вы кое-что понимаете в аналитике. Вы знакомы с доступными вам инструментами и даже создавали с их помощью прототипы. Такой опыт позволяет вам видеть аналитические возможности лучше других, потому что вы знаете, что именно возможно. Вам не нужно ждать, пока кто-то принесет вам эту возможность – вы в состоянии найти ее сами.
Но без общения невозможно понять вызовы и задачи, стоящие перед другими людьми, обсудить перспективы сотрудничества и объяснить, над чем вы сейчас работаете.
В современной деловой среде совершенно непозволительно хорошо разбираться в чем-то одном. Специалисты, которые занимаются наукой о данных, должны быть полиглотами, понимающими языки математики, программирования и бизнеса. Наилучший способ научиться общаться с другими людьми, как и единственный способ освоить математику – это практика.
Используйте любую подвернувшуюся возможность, формальную и неформальную, чтобы поговорить об аналитике. Ищите способы обсудить аналитические концепции конкретно в вашем деловом аспекте.
Настаивайте на том, чтобы менеджеры разрешали вам участвовать в планировании и развитии бизнеса. Очень часто профессиональные аналитики допускаются к проекту только после составления его плана, но ваши знания о техниках и доступных данных совершенно необходимы для успеха дела на этапе раннего планирования.
Прилагайте усилия, чтобы в вас видели человека, с которым стоит посоветоваться, а не тупое продолжение «цифрожевательной» машины, в которую задачи забрасывают с безопасного расстояния. Чем более открыт и общителен аналитик в своей организации, тем более эффективен его труд.
К аналитикам слишком долго относились как к женщинам в викторианскую эпоху – держали подальше от сложных бизнес-проблем, потому что они наверняка не смогли бы их понять. Позвольте людям почувствовать значимость ваших навыков и широту кругозора – то, что окружающие не способны к расчетам, еще не значит, что с ними нельзя обсудить слайд из презентации. Втягивайтесь, пачкайте руки – и говорите!

Остерегайтесь трехголового змея: инструментов, параметров работы и математического совершенства

Существует множество ошибок, способных подорвать авторитет аналитики в организации. В этом списке – политика и внутренние конфликты, неудачный опыт предыдущего проекта «предприятия по бизнес-аналитике с управлением через облако» или подразделений, не решавшихся оптимизировать или автоматизировать свои темные делишки из страха, что их моментально расформируют.
Не все препятствия создаются профессиональным аналитиком, но кое-какие несомненно. Есть три основных способа испортить собственную работу: чрезмерная сложность моделирования, одержимость инструментами и фиксация на параметрах работы.
Сложность
Много лет назад я работал над оптимизационной моделью цепи снабжения одной компании, входящей в Fortune 500. Честно сказать, это была бестолковая модель. Понабрав бизнес-правил всех мастей от заказчика, мы смоделировали по ним полный процесс снабжения как смешанно-целочисленную программу. Мы даже спрогнозировали нормально распределенный будущий спрос, причем новаторски, за что нас и опубликовали.
Но, повторяю, модель была ужасной. Обреченной с самого начала. Под словом «обреченная» я не имею в виду, что она была неверна, но лучше бы мы ее не использовали. Честно признаюсь, после ухода нескольких научных сотрудников в компании не осталось никого, кто мог бы обновлять значения кумулятивной погрешности прогноза и стандартного отклонения. Рабочие на объекте так и не смогли «въехать», как это делается, несмотря на все наше обучение.
Вот в чем разница между наукой и индустрией! В науке успех не определяется пользой. Новаторская оптимизационная модель ценна сама по себе, даже если она слишком сложна для аналитика цепи снабжения.
Но на производстве аналитикам приходится работать на результат, и для модели практическая ценность играет такую же роль, что и новизна.
В случае с этой злосчастной моделью мы потратили слишком много времени на сложные математические конструкции для оптимизации цепи снабжения и совершенно упустили из виду то, что модель, возможно, некому будет обновлять.
Признак настоящего профессионала-аналитика, как и каждого настоящего художника – умение «вычленить» момент для внесения изменений. Помните, что в аналитике лучшее – враг хорошего. Лучшая модель – та, в которой достигнут правильный баланс между функциональностью и простотой в обращении. Если аналитическая модель не используется, она ничего не стоит.
Инструменты
Сегодня в мире аналитики (или, если вам больше нравится, «науки о данных», «больших данных», «бизнес-аналитике», «облачного чего-то там» и т. д.) людей все больше интересуют инструменты и архитектура.
Инструменты, безусловно, важны. Они позволяют развернуть во всей красе ваши аналитические проекты и проекты по управлению данными. Но когда люди говорят о «лучшем инструменте в их работе», это часто является признаком фокусировки на инструменте, а не на работе.
Компании, производящие программное обеспечение, заинтересованы в продаже вам продукта, решающего проблемы, которых у вас, возможно, и нет. А у многих есть еще и боссы, которые, начитавшись Harvard Business Review, велят нам с умным видом: «Надо сделать эту штуку с большими данными. Сходи, купи что-нибудь и запускай свой Hadoop».
Все это привело к опасным тенденциям в современном бизнесе, когда менеджмент заботится только об инструментах, причем настолько рьяно, что аналитикам ничего не остается, как молча подчиняться. Производители же, в свою очередь, только и мечтают продать нам инструменты, чтобы нам было чем заняться, но я бы не стал утверждать, что в этом случае речь идет о настоящем анализе.
Вот простое правило: перед размышлением об инструментах как можно более детально выбирайте аналитические возможности, за которые вы хотели бы взяться.
Нужен ли вам Hadoop? Зависит от того, требует ли ваша задача принципа «разделяй и властвуй» для кучи несортированных данных? Нет? Тогда ответ, наверное, тоже отрицательный. Не ставьте телегу впереди лошади и не покупайте программы (это же относится к консультантам, которым для работы нужны инструменты с открытым кодом), только чтобы потом сказать: «Отлично! И что теперь делать со всем этим добром?»
Параметры работы
Если бы мне давали монетку каждый раз, когда кто-нибудь поднимает брови, слыша, что в MailChimp мы используем R в антиспамовых моделях, я бы уже купил фабрику Mountain Dew. Все считают этот язык неподходящим из-за настроек производительности. Если бы я занимался торговлей на бирже с огромным потоком данных, то, думаю, утверждение это было бы верно. Я бы лучше написал все в С. Но я не торгую на бирже – и этим все сказано.
Что касается MailChimp, то большую часть времени мы проводим не в R. Оно уходит на перемещение данных в модели ИИ. Не на саму работу модели ИИ и уж точно не на ее обучение.
Я встречал ребят, уверенных в скорости, с которой их ПО обучает модель ИИ. Может ли модель обучаться параллельно, на языке нижнего уровня, в живой среде?
Они постоянно спрашивают себя, что из их набора необходимо в данный момент, вместо того чтобы перестать тратить уйму времени на полировку лишней части своего аналитического проекта.
В MailChimp мы обучаем наши модели офлайн раз в квартал, тестируем их, а уже затем запускаем обратно в производство. В R на обучение модели у меня уходит несколько часов. И даже несмотря на то, что у нас, как у любой компании, объем данных измеряется в терабайтах, размер однажды созданного обучающего набора – всего 10 гигабайт, так что я могу обучать модели даже на ноутбуке. С ума сойти!
При этом я не фокусируюсь на скорости обучения в R. Я сосредотачиваюсь на более важных вещах, например точности модели.
Я отнюдь не утверждаю, что вы вообще не должны уделять внимание параметрам работы. Но заниматься ими надо спокойно, без фанатизма и только когда этого требует ситуация.

Вы – не самая важная функция в своей организации

Выше мы говорили о трех вещах, которых стоит опасаться. Добавлю также, что большинство компаний не занимается аналитическим бизнесом – вы должны помнить об этом. Они добывают деньги другими способами, и аналитика призвана лишь обслуживать эти способы.
Наверняка вы где-то слышали, что специалист по работе с данными – «самая привлекательная работа века». Это все оттого, что наука о данных служит индустрии. Главное слово здесь – «служит».
Представьте себе индустрию авиаперевозок. Отраслевики десятилетиями анализируют огромный объем данных, чтобы выдавить из вас последний цент за место, на котором вы едва помещаетесь. Все это делается с помощью моделей оптимизации доходов. Это огромная победа для математики.
Но знаете что? Самая важная часть авиабизнеса – это полеты. Продукция и услуги, продаваемые организацией, значат больше, чем модели, прибавляющие центы к этим долларам. Вашей целью должно быть использование данных для улучшения выделения целевых групп, прогнозирования, ценообразования, принятия решений, составления отчетов, соблюдения юридических норм и т. д. Другими словами, работайте вместе со всей своей организацией над лучшим бизнесом, а не над наукой о данных ради нее самой.
Назад: Где я? Что случилось?
Дальше: Подходите ко всему творчески и будьте на связи!

БУРГЕР КИНГ
Я не робот!
Антон
Перезвоните мне пожалуйста по номеру. 8 (953) 367-35-45 Антон
Антон
Перезвоните мне пожалуйста 8 (495) 248-01-88 Антон.