Книга: Наука о данных: Базовый курс
Назад: Глава 7. БУДУЩИЕ ТЕНДЕНЦИИ И ПРИНЦИПЫ УСПЕШНОСТИ
На главную: Предисловие

Глоссарий

CRISP-DM

Межотраслевой стандартный процесс, определяющий жизненный цикл проекта исследования данных. Часто используется в науке о данных.

Пирамида DIKW (DIKW Pyramid)

Модель структурных отношений между данными, информацией, знаниями и мудростью. В пирамиде DIKW данные предшествуют информации, которая предшествует знаниям, которые предшест­вуют мудрости.

Hadoop

Платформа с открытым исходным кодом, разработанная Apache Software Foundation, предназначенная для обработки больших данных. Использует распределенное хранение и обработку по кластерам аппаратного обеспечения.

OLAP — интерактивная аналитическая обработка

Операции OLAP генерируют сводки исторических данных и включают агрегирование данных из нескольких источников. Они предназначены для генерации сводок по типам отчетов и позволяют пользователям раcпределять, фрагментировать и переворачивать данные в хранилище, используя предопределенный набор атрибутов, например продажи по магазинам, продажи по кварталам.

SQL — язык структурированных запросов

Международный стандарт для определения запросов к базе данных.

Анализ данных (Data Analysis)

Общий термин, используемый для описания любого процесса извлечения полезной информации из данных. Типы анализа данных включают визуализацию, сводную статистику, корреляционный анализ и моделирование с использованием машинного обучения.

Аналитическая базовая таблица (Analytics Base Table, ABT)

Таблица, в которой каждая строка содержит данные, относящиеся к конкретному объекту, а каждый столбец — параметры определенного атрибута объектов в таблице. Это основной способ ввода информации для глубинного анализа данных и алгоритмов машинного обучения.

Атрибут (Attribute)

Каждый объект набора данных описывается рядом атрибутов (также называемых признаками или переменными). Атрибут фиксирует один фрагмент данных, относящихся к объекту. Атрибут может быть базовым или производным.

База данных (Database)

Центральное хранилище данных. Наиболее распространена реляционная структура базы данных, которая хранит данные в таблицах, где каждая строка отведена одному объекту, а каждый столбец — одному атрибуту. Это представление идеально подходит для хранения данных с четкой структурой, которые могут быть разложены на базовые атрибуты.

Большие данные (Big Data)

Большие данные часто определяют как «3V»: экстремальный объем (Volume), разнообразие типов (Variety) и скорость обработки данных (Velocity).

Высокопроизводительные вычисления (High Performance Computing, или HPC)

Нацелены на разработку и реализацию моделей для объединения большого количества компьютеров в кластер, способный эффективно хранить и обрабатывать большие объемы данных.

Выхлопные данные (Exhaust Data)

Данные, являющиеся побочным продуктом процесса, основной целью которого является нечто иное, чем сбор данных. Например, для каждого перепоста, ретвита или лайка в соцсетях создается ряд «выхлопных данных»: кто поделился, кто просмотрел, какое устройство использовалось, какое время суток и т.д. (В отличие от намеренно собранных данных.)

Выявление аномалий (Anomaly Detection)

Включает поиск и идентификацию экземпляров данных, которые являются нетипичными в наборе. Эти отклонения часто называют аномалиями или выбросами. Часто применяется при анализе финансовых транзакций для обнаружения потенциальных мошеннических действий и запуска расследований.

Глубинный анализ данных (Data Mining)

Процесс выявления в наборах данных полезных закономерностей для решения конкретной проблемы. CRISP-DM определяет стандартный жизненный цикл проекта глубинного анализа данных. Тесно связан с наукой о данных, но охватывает меньший круг задач.

Глубокое обучение (Deep Learning)

Модель глубокого обучения — это нейронная сеть, которая имеет несколько ( больше двух) слоев скрытых элементов (или нейронов). Глубокие сети являются глубокими именно в смысле количества слоев нейронов. Сегодня большинство глубоких сетей имеют от 10 до 100 слоев. Сила глубокого обучения состоит в том, что на более поздних уровнях нейроны способны изучать производные атрибуты, составляя их из атрибутов, изученных нейронами на более ранних уровнях.

Данные (Data)

В самом общем смысле данные — это набор характеристик (или измерение) некоей реальной сущности (человека, объекта или события).

Дерево решений (Decision Tree)

Тип модели прогнозирования, которая кодирует правила условного оператора (если — тогда — иначе) в древовидной структуре. Каждый узел дерева определяет один атрибут для тестирования, и объект должен пройти путь от корневого узла до конечного, чтобы метка конечного узла в дальнейшем могла быть предсказана для этого объекта.

Интернет вещей (Internet of Things, IoT)

Межсетевой обмен информацией между физическими устройствами и датчиками. Включает в себя область разработки «машина — машина» (м2м) по созданию систем, которые не только позволяют машинам обмениваться информацией, но и реагировать на нее, инициируя действия без участия человека.

Классификация (Classification)

Задача прогнозирования значения целевого атрибута объекта на основе набора значений входных атрибутов, где целевой атрибут отражает номинальный или порядковый тип данных.

Кластеризация (Clustering)

Выявление групп схожих объектов в наборе данных.

Обучение с учителем (Supervised Learning)

Форма машинного обучения, целью которой является изучение функции, отображаемой набором значений входных атрибутов объекта для вычисления отсутствующего значения целевого атрибута того же объекта.

Корреляция (Correlation)

Описывает силу, связывающую атрибуты.

Линейная регрессия (Linear Regression)

Когда в регрессионном анализе предполагается линейная зависимость, анализ называется линейной регрессией. Этот термин часто используется для описания моделей прогнозирования машинного обучения, которые применяют этот вид анализа для вычисления значения числового целевого атрибута.

Машинное обучение (Machine Learning)

Область компьютерных исследований, которая фокусируется на разработке и оценке алгоритмов, способных выявлять полезные закономерности в наборах данных. Алгоритм машинного обучения принимает на вход набор данных и возвращает модель, которая кодирует закономерности, выявленные алгоритмом.

Машинное обучение в базе данных (In-Database Machine Learning)

Использование алгоритмов машинного обучения, встроенных в решение для базы данных. Преимущество машинного обучения в базе данных состоит в том, что оно сокращает время, затрачиваемое на перемещение данных для анализа.

Метаданные (Metadata)

Данные, описывающие структуры и свойства других данных, например, временна́я метка, которая содержит информацию о том, когда фрагмент данных был собран. Метаданные являются одним из наиболее распространенных типов данных о выбросах.

Набор данных (Dataset)

Совокупность данных, относящихся к набору объектов, каждый из которых описан в терминах набора атрибутов. В своей основной форме набор данных организован в виде матрицы n × m, где n — количество объектов (строк), а m — количество атрибутов (столбцов).

Наука о данных (Data Science)

Развивающаяся область знаний, которая использует набор алгоритмов, процессов и методов постановки проблемы для анализа больших данных с целью извлечь из них полезную информацию. Тесно связана с глубинным анализом данных, но имеет более широкую сферу применения и круг проблем. Занимается анализом как структурированных, так и неструктурированных больших данных и базируется на принципах целого ряда научных отраслей, включая машинное обучение, статистику, высокопроизводительные вычисления, а также этические вопросы использования данных и их регулирование.

Нейрон (Neuron)

Нейрон принимает на вход несколько значений (или активаций) и отображает их в качестве выходного сигнала. Это отображение обычно обеспечивается функцией линейной регрессии, примененной к входным данным, и последующим выводом результата этой функции через нелинейные функции активации, такие как логистическая функция или функция TANH.

Нейронная сеть (Neural Network)

Тип модели машинного обучения, которая реализована в виде сети процессорных блоков, называемых нейронами. Можно создавать различные типы нейронных сетей, изменяя в них топологию нейронов. Наиболее часто встречаются полностью подключенные нейронные сети с прямой связью, которые обучают методом обратного распространения ошибки.

Обучение без учителя (Unsupervised Learning)

Форма машинного обучения, целью которой является выявление закономерностей в базе данных, которые включают кластеры похожих объектов или регулярность атрибутов. В отличие от контролируемого обучения в наборе данных не определен целевой атрибут.

Необработанный атрибут (Raw Attribute)

Абстракция сущности, которая является ее прямым измерением, например рост человека (в отличие от производного атрибута).

Неструктурированные данные (Unstructured Data)

Данные, где каждый объект в наборе может иметь собственную внутреннюю структуру, отличающуюся от внутренних структур других объектов. Например, текстовые данные часто не структурированы и требуют, чтобы к ним применялась последовательность операций для извлечения структурированного представления каждого объекта.

Объект (Instance)

Каждая строка в наборе данных содержит информацию, относящуюся к одному объекту (также называемому экземпляром, сущностью, случаем или записью).

Поиск ассоциативных правил (Association Rule Mining)

Техника анализа данных при неконтролируемом обучении, которая ищет группы элементов, часто встречающихся вместе. Классическим примером использования является анализ рыночной корзины, когда розничные компании пытаются идентифицировать наборы товаров, которые часто покупают вместе, к примеру хот-дог, кетчуп и пиво.

Прогнозирование (Prediction)

В контексте науки о данных и машинного обучения прогнозирование — это задача вычисления значения целевого атрибута для данного объекта на основе значений других атрибутов (или входных атрибутов) этого же объекта.

Производный атрибут (Derived Attribute)

Атрибут, значение которого генерируется путем применения функции к данным, а не путем прямого измерения объекта (в отличие от базового атрибута). Примером производного атрибута является атрибут, который описывает среднее значение выборки.

Регрессионный анализ (Regression Analysis)

Вычисляет ожидаемое (или среднее) значение числового целевого атрибута при всех заданных значениях входного атрибута. Регрессионный анализ предполагает параметризованную математическую модель гипотетической взаимосвязи между входами и выходами, известную как функция регрессии. Функция регрессии может иметь множество параметров, и целью регрессионного анализа является поиск правильных настроек для них.

Собранные данные (Captured Data)

Данные, которые зафиксированы непосредственно в процессе сбора данных (в отличие от аномалий).

Структурированные данные (Structured Data)

Данные, которые могут храниться в таблице, каждый объект которой имеет одинаковый набор атрибутов (в отличие от неструктурированных данных).

Транзакционные данные (Transactional Data)

Включают информацию о событиях, таких как продажа товара, выставление счета, доставка груза, оплата кредитной картой и т.д.

Умный город (Smart City)

Проекты умных городов, как правило, пытаются интегрировать данные в режиме реального времени из множества различных источников в единый центр данных, где они анализируются и используются для принятия управленческих решений и планирования.

Хранилище данных (Data Warehouse)

Централизованный репозиторий, который содержит данные из разных источников со всех уровней организации. Данные структурированы так, чтобы поддерживать генерацию сводных отчетов. Интерактивная аналитическая обработка (OLAP) — термин, используемый для описания типичных операций в хранилище данных.

Целевой атрибут (Target Attribute)

В задаче прогнозирования целевой атрибут — это атрибут, которому модель прогнозирования обучается для вычисления значений.

Назад: Глава 7. БУДУЩИЕ ТЕНДЕНЦИИ И ПРИНЦИПЫ УСПЕШНОСТИ
На главную: Предисловие