Одним из важнейших навыков специалиста по данным является способность сформулировать насущную проблему как стандартную задачу науки о данных. Большинство проектов в этой области можно отнести к одному из четырех основных классов задач:
Понимание того, на какую задачу нацелен проект, облегчит принятие многих проектных решений. Например, для обучения модели прогнозирования требуется, чтобы каждый из объектов в наборе данных содержал значение целевого атрибута, а это, в свою очередь, дает ориентиры (через запросы) с точки зрения проектирования набора данных. Понимание задачи также определяет, какие алгоритмы машинного обучения использовать. Существует множество алгоритмов машинного обучения, и каждый предназначен для конкретной задачи глубинного анализа данных. Например, алгоритмы, генерирующие модели дерева решений, в первую очередь предназначены для решения задач прогнозирования. Каждой задаче соответствует множество алгоритмов машинного обучения, поэтому знание задачи определяет не конкретный алгоритм, а их набор. Поскольку задача влияет как на структуру набора данных, так и на выбор алгоритмов машинного обучения, определиться с ее типом необходимо на раннем этапе жизненного цикла проекта, в идеале — на этапе понимания бизнес-целей CRISP-DM. Чтобы лучше понять типы задач, ниже мы покажем, как некоторые стандартные проблемы бизнеса соотносятся с ними.
Распространенная область применения науки о данных в бизнесе — поддержка маркетинговых кампаний и продаж. Разработка целевой маркетинговой кампании требует понимания целевого клиента. Круг клиентов большинства предприятий довольно широк, в нем присутствуют потребители с разными предпочтениями и запросами, поэтому подход «один размер для всех», скорее всего, окажется провальным. Правильнее будет определить количество клиентских профилей, каждый из которых описывает значительный сегмент клиентской базы, а затем разработать целевые маркетинговые кампании для каждого. Эти профили могут быть созданы вручную с привлечением опыта в предметной сфере, но, как правило, наилучшим решением будет создать их на основе данных, которые бизнес накопил о своих клиентах. Интуиция зачастую может пропустить важные неочевидные моменты или не обеспечить требуемый для тонкой маркетинговой настройки уровень детализации. Например, Браун сообщает, что в одном проекте науки о данных известный стереотип о маме футболиста (домохозяйке из пригорода, которая много времени посвящает тому, чтобы возить детей на футбольные тренировки) не нашел соответствия в клиентской базе. Однако при использовании процесса кластеризации, основанного на данных, были выявлены более сфокусированные профили, такие как матери, работающие полный рабочий день вне дома с маленькими детьми в детском саду, или матери старшеклассников, которые работают неполный рабочий день, или женщины без детей, которые заинтересованы в здоровом питании. Эти клиентские профили определяют более четкие цели для маркетинговых кампаний и могут выявить неизвестные сегменты в базе клиентов.