Глава 2. От данных к мудрости
2.1. Данные и информация
Прежде чем начать разбираться в вопросах управления и извлечения ценности из данных, стоит подробнее остановиться на терминах «данные» (data) и «информация» (information) и их значениях. Применительно к сфере управления данными эти термины часто используют как синонимы, но во многих случаях значения различают. Понять разницу поможет экскурс в историю их происхождения.
В английском языке слово information появилось гораздо раньше, чем слово data, – в конце XIV века. Слово пришло из старофранцузского языка. Французские information, informateur – производные от informer – «осведомлять, сообщать, делать известным». Первоисточник – латинское informatio – «разъяснение, истолкование, сообщение». От in – «в, к, в направлении» + forma – «форма». Истоки слова «форма» неизвестны.
Во второй половине XV века за словом information закрепилось значение «переданные сведения, относящиеся к определенной теме». Сфера применения постепенно расширялась. В частности, в XX веке слово стало появляться в документальных источниках в связи с передачей телевизионных сигналов – с 1937 года, применением перфокарт – c 1944-го, анализом ДНК – с 1953-го. Термин «теория информации» (information theory) используется с 1950 года, «информационная технология» (information technology) – с 1958-го (впервые появился в журнале Harvard Business Review), «информационная революция» (information revolution) – с 1966-го, «информационная перегрузка» (information overload) – с 1967-го.
В русский язык слово «информация» пришло из западноевропейских языков при Петре I – в начале XVIII века (но в словарях появляется лишь во второй половине XIX века). Основные значения – «сообщения, сведения, пояснения».
Что же касается слова data, то оно в английском языке стало использоваться (в значении, близком к сегодняшнему) в 1640-х годах – более чем на два столетия позже слова information.
Слово data произошло от латинского datum – «данная вещь» (от латинского dare – «давать»). Оно применяется как во множественном, так и в единственном числе, однако в научной литературе для единственного числа может использоваться термин datum.
1640-е годы – время начала Английской гражданской войны, открывшей путь к промышленной революции XVIII–XIX веков. Одновременно это было время осуществления первой научной революции и возникновения классической европейской науки. Слова data и datum в значении «данные или предоставленные факты» впервые появились в работах английского священника Генри Хаммонда (Henry Hammond), который, как и многие представители его профессии в то время, участвовал в формировании основ классической науки.
Начиная с работ Хаммонда слово information стало все чаще и чаще дублироваться словом data, чему способствовала научная революция, наступление «Века разума» (The Age of Reason) и эпохи Просвещения. Появилось (благодаря быстрому распространению книгопечатания, изобретенного Гуттенбергом в 1450 году) большое количество книг по уже существовавшим и вновь появляющимся отраслям науки. Таким образом, был создан и активно обрабатывался огромный объем совместно используемых сведений. Для обозначения таких сведений, предоставляемых для обсуждения и осмысления, начал применяться термин data (сначала в классическом значении – «факты, данные в качестве основы для вычислений при решении математических задач»), более подходящий в данном случае, чем термин information.
Необходимо отметить еще одно важное слово, появление которого оказало существенное влияние на дальнейшее распространение термина «данные». В 1798 году Джон Синклер в своем «Статистическом отчете о Шотландии» ввел в английский язык термин «статистика». По определению Синклера, статистика – это собрание фактов, которые совершенно не обязательно должны были быть представлены (и даже в основном не были представлены) в числовом виде. Однако с 1829 года слово statistics стало употребляться в английских документальных источниках в более строгом значении – «собранные и классифицированные числовые данные». С этого момента изучение любого предмета стало сопровождаться проведением всеобъемлющих подсчетов.
Широкое распространение статистических методов привело к тесной смысловой привязке термина data к термину statistics. В 1897 году в документальных источниках на английском языке слово data стало использоваться в новом значении – «факты в числовом виде, собранные для дальнейшего использования».
В XX веке спектр значений cлова data существенно расширился.
В 1946 году появилось значение «передаваемая и хранимая информация, с помощью которой осуществляется выполнение компьютерных операций».
Стали использоваться новые термины: «обработка данных» (data processing) – с 1954 года, «база данных» (database) – с 1962 года, «ввод данных» (data entry) – с 1970 года.
В русском языке слово «данные» – производное от «дать», «давать». Родственно древнеиндийскому слову datis – «дар». Данные – то, что дано, найдено. В толковом словаре Даля «данныя, данности – известное, бесспорное, очевидное, верное, все, что служит основанием для какого-либо вывода, расчета, заключения». В энциклопедическом словаре Брокгауза и Ефрона приведено следующее определение: «В вопросах математики данные суть величины, значения которых известны или предполагаются известными; зная их, требуется в рассматриваемом вопросе определить искомые неизвестные величины.
Данные (Δεδόμενα) есть заглавие одного из сочинений Эвклида, составляющего продолжение его “Элементов”. Можно указать несколько изданий этой книги: Гарди в 1625 году с греческим текстом и Баррова в 1659 году Эвклид называет данным все то, что на основании теорем, заключающихся в элементах, непосредственно следует из условий задачи. Например, если проводим из данной точки прямую, касательную к данному кругу, то эта прямая есть данная по величине и положению».
Приведем несколько современных определений.
Согласно «Оксфордскому словарю современного английского языка»:
● Data: 1) Известные факты, используемые для вывода или расчета. 2) Числовые и нечисловые значения характеристик кого-либо (чего-либо), с которыми выполняет операции компьютер или какое-нибудь другое подобное устройство.
● Information: 1) a) Что-то, что было сообщено; знания. б) Элементы знаний; новости. 2) Обвинение или жалоба, поданная в суд и т. п.
Согласно «Новому словарю русского языка»:
● Данные: 1) Сведения, факты, характеризующие кого-либо, что-либо, необходимые для каких-либо выводов, решений. 2) Свойства, способности, качества как условия или основания, необходимые для чего-либо.
● Информация: 1) Сообщение о положении дел где-либо, о состоянии чего-либо. 2) а) Сведения об окружающем мире и протекающих в нем процессах, воспринимаемые человеком или специальными устройствами. б) Обмен такими сведениями между людьми и специальными устройствами. в) Обмен сигналами в животном и растительном мире. 3) То же, что: информирование.
Все это позволяет понять разницу между понятиями «данные» и «информация» и очертить преимущественные сферы их применения.
Следует заметить, что здесь в отношении термина «информация» мы ограничиваемся его общепринятыми нестрогими определениями и не обсуждаем научные определения, используемые в теории связи, теории информации и кибернетике и связанные с понятием количества информации. Отметим только, что известны два основных сугубо научных подхода к определению этого термина.
Согласно первому, информация – это внешнее описание объекта, содержащееся в передаваемом сообщении. Количество информации определяется как мера неопределенности, снимаемой полученным сообщением. Такое представление в 1948 году ввел Клод Шеннон в своей статье «Математическая теория связи», попутно предложив для обозначения наименьшей единицы информации использовать слово «бит».
Согласно второму подходу, информация не связывается с передаваемым сообщением. Она относится к объекту и есть мера его разнообразия. Автор этого представления – Уильям Эшби.
Указанные научные определения в дальнейшем в этой книге не используются, поскольку ценность информации слабо связана с ее количеством. Важность информации субъективна и зависит от цели ее потребителя. Все способы количественного определения ценности основаны на представлении о цели, достижению которой способствует полученная информация. Чем больше информация помогает достижению цели, тем более ценной она считается. Массив информации объемом в сотни гигабайт может иметь колоссальную важность для одной организации и нулевую для другой.
Основываясь на приведенных сведениях, можно продолжить обсуждение вопросов, относящихся к ценности данных.
Как уже говорилось выше, применительно к сфере управления данными термины «данные» и «информация» часто используются как синонимы. Кроме того, как видно из приведенных выше определений, термин «информация» иногда заменяется термином «знания».
Всегда ли допустимо такое обобщение и не приводит ли оно к недоразумениям? В частности, к существенному недопониманию между участниками многочисленных проектов по внедрению различного рода информационных систем, а также между участниками их дальнейшей эксплуатации и пользователями. В том числе и по вопросам определения ценности данных.
Для ответа необходимо более подробно обсудить взаимосвязь понятий «данные» и «информация», а также соотнести их с понятиями «знания» (knowledge) и «мудрость» (wisdom).
2.2. Информационная иерархия
При обсуждении взаимосвязи понятий «данные», «информация», «знания» и «мудрость» обычно используется классическое представление – иерархия Data-Information-Knowledge-Wisdom (DIKW). Часто в литературе применяются названия «иерархия знаний», «пирамида знаний» или же «информационная иерархия», «информационная пирамида».
В большинстве исследований, посвященных происхождению иерархии DIKW (например,) в качестве одного из наиболее ранних источников, в которых встречается ее описание, обычно упоминается статья Харлана Кливленда «Информация как ресурс». Она была опубликована в 1982 году в американском журнале The Futurist.
По мнению Кливленда, данные образуются в результате исследований, а также путем создания или сбора или же совершения открытий, в то время как информация имеет контекст. Данные превращаются в информацию с помощью организации их таким образом, чтобы мы могли легко делать какие-либо заключения. Кроме того, они преобразуются в информацию с помощью представления (презентации), например в визуальной или аудиальной (звуковой) форме.
Хотя известно несколько более ранних публикаций других авторов, затрагивающих эту тему, статья Кливленда цитируется особенно часто и примечательна фрагментом из поэмы Томаса Элиота «Камень» (The Rock), написанной в 1934 году, в которой отражена иерархическая взаимосвязь понятий «информация», «знания» и «мудрость».
Where is the Life we have lost in living?
Where is the wisdom we have lost in knowledge?
Where is the knowledge we have lost in information?
Где Жизнь, которую мы потеряли в жизни?
Где мудрость, которую, мы потеряли в знаниях?
Где знания, которые мы потеряли в информации?
Кливленд назвал определенную в поэме цепочку понятий «иерархией Элиота». После выхода его статьи в специальной литературе прочно закрепилось мнение о том, что именно Элиоту принадлежит авторство идеи иерархии DIKW (или, по крайней мере, IKW).
Среди академических работ, в которых рассматривается иерархия DIKW, наиболее ранней стала статья Милана Желены «Системы поддержки управления: На пути к интегрированному управлению знаниями». В ней описана схема последовательного продвижения от данных к знаниям. Ученый предложил упрощенные определения уровней иерархии, основанные на знании ответов на простые вопросы.
● Данные – «не знаю – ничего» (know-nothing).
● Информация – «знаю – что» (know-what).
● Знания – «знаю – как» (know-how).
● Мудрость – «знаю – почему» (know-why).
В то же время Желены заметил, что, хотя данные и информация (благодаря их атомарной, дробной, нецелостной природе) могут быть сгенерированы без интерпретации человеком, знания и мудрость зависят от человека и контекста и не могут быть рассмотрены без использования процедур оценки и принятия решения человеком.
Автором одного из наиболее систематизированных и целостных описаний взаимосвязи понятий «данные», «информация», «знания» и «мудрость» часто называют Рассела Акоффа. В 1989 году был опубликован текст его президентского обращения к Международному обществу общесистемных исследований (International Society for General Systems Research, ISGSR) под заголовком «От данных к мудрости».
Хотя размышления Акоффа относятся к иерархии типов содержания человеческого разума, они справедливы и по отношению к информационным системам. Иерархия описывается следующим образом. «Мудрость» находится на вершине иерархии. Ниже следуют «понимание», «знание», «информация» и в самом низу – «данные». Каждый из уровней включает содержание уровней, расположенных ниже, – например, не может быть мудрости без понимания и понимания без знания.
Акофф предлагает следующие определения данных, информации, знаний и мудрости, а также связанных с ними процессов трансформации.
● Данные – это символы, представляющие свойства объектов, событий и их окружения. Это результаты наблюдений. Наблюдать означает ощущать. Технология ощущений, ее инструментализация, конечно, высоко развита у человека от природы. Информация, как уже отмечалось, извлекается из данных с помощью их анализа, во многих аспектах которого компьютеры превосходны.
Данные, подобно железной руде, не имеют ценности, пока они не преобразуются в соответствующую полезную форму. Поэтому разница между данными и информацией не структуральная, а функциональная, данные обычно редуцируются при их преобразовании в информацию.
● Информация состоит из описаний, ответов на вопросы, начинающиеся с таких слов, как «кто», «что», «где», «когда», «сколько». Информационные системы генерируют, запоминают, извлекают и обрабатывают данные. Во многих случаях обработка носит статистический или арифметический характер. В любом случае информация выводится из данных.
● Знание есть ноу-хау, например о том, как система работает. Знание позволяет преобразовать информацию в инструкции. Оно делает возможным контроль над системой.
Знание может быть обретено двумя путями: либо получением его от тех, кто им обладает, либо извлечением из собственного практического опыта. В любом случае приобретение знания есть обучение. Когда программируются компьютеры, они «обучаются», как сделать что-то.
● Мудрость есть способность увеличивать эффективность по цели, (effectiveness), в то время как информация и знание сосредоточены на эффективности по средствам (efficiency).
Мудрость имеет большую ценность благодаря ментальной функции, которую мы называем суждением. Все оценки эффективности основаны на логике, которая может быть определена, а значит, запрограммирована и автоматизирована. Эти принципы общи и объективны. Мы можем говорить об эффективности действия безотносительно к исполнителю. А по отношению к суждению это не так. Ценность действия всегда зависит от того, кто действует, редко когда она одинакова для двух исполнителей, даже если они делают одно и то же. Эффективность по средствам не связана с мотивами деятельности; а эффективность по целям определяется именно этическими и эстетическими ценностями. Они являются уникальными и персональными.
По мнению Акоффа, элементы иерархии DIKW имеют временное измерение. Информация, подобно новостям, довольно быстро стареет. Знание живет дольше, хотя и оно неизбежно устаревает. Мудрость имеет вечную значимость для человечества (если она не утрачивается).
Позже американские эксперты в области теории организаций (Bellinger и др.) выступили с критикой расширения Акоффом иерархии DIKW за счет «понимания»», уточнив, что «понимание» не является отдельным уровнем, а скорее поддерживает переходы с предыдущих уровней на следующие (рис. 2.1).
* Bellinger G., Castro D., Mills A. Data, Information, Knowledge, & Wisdom, 2004. – URL: .
Согласно приводимому исследованию данные представляют факты или утверждения о событии без связи с другими вещами.
Пример. Идет дождь.
Информация содержит понимание какой-либо связи, возможно причинно-следственной.
Пример. Температура упала на 15 градусов, а потом пошел дождь.
Знания отражают паттерн, который связывает факты и обычно обеспечивает высокий уровень предсказуемости относительно того, что описано или что произойдет дальше.
Пример. Если влажность очень высокая и температура существенно падает, то влага вряд ли сможет удержатьcя в атмосфере, поэтому обычно идет дождь.
Мудрость воплощает более глубокое понимание фундаментальных принципов, содержащихся в знании, которые, по сути, являются основой знаний. Мудрость носит системный характер.
Пример. Идет дождь, потому что идет дождь. И это включает в себя понимание всех взаимодействий, которые происходят между дождем, испарением, воздушными потоками, температурными градиентами и сопровождающими их изменениями.
Чаще всего иерархия DIKW изображается в виде пирамиды (рис. 2.2). Такое графическое представление впервые появилось в работе (об этом, в частности, сообщается в обзорной статье).
* Hey J. The Data, Information, Knowledge, Wisdom Chain: The Metaphorical link, published at Intergovernmental Oceanographic Commission (UNESCO) – OceanTeacher: a training system for ocean data and information management, 2004. – URL: .
2.3. Внутри пирамиды знаний
Чтобы составить достаточно полную картину взаимоотношений между уровнями пирамиды знаний в соответствии с современными общепринятыми взглядами, приведем более подробное описание этих уровней. Для этого воспользуемся сведениями из часто цитируемых обзоров наиболее известных монографий и руководств по информационным системам и управлению знаниями.
Начнем с определений.
1. Определение данных.
Чаще всего в определениях данных отмечается следующее:
● Данные – это дискретные, объективные факты или наблюдения, неорганизованные и необработанные, не передающие никакого конкретного смысла.
● Элементы данных – это простейшие записанные фрагменты описаний вещей, событий, действий и транзакций.
Данные не имеют смысла или ценности, потому что они лишены контекста и интерпретации.
Интересно, что выделяется преимущественно то, чего не хватает данным, – они лишены смысла или ценности, не организованы и не обработаны. Ввиду этих особенностей определения информации формулируются в терминах данных.
2. Определение информации.
Определения информации, как правило, опираются на ее взаимосвязь с данными. При этом используются такие понятия, как «формат», «структура», «организация», «смысл» и «ценность».
● Информация – это форматированные данные, которые могут быть определены как представление реальности.
● Информация – это данные, которые улучшают понимание предмета.
● Информация – это данные, представленные в форме, позволяющей им быть полезными и значимыми для людей.
● Информация – это данные, обработанные с определенной целью.
● Информация – это данные, которым придан смысл посредством добавления контекста.
Таким образом, информация в большинстве случаев определяется в терминах данных и рассматривается как организованные или структурированные данные. Их обработка обеспечивает соответствие данных конкретной цели или контексту и тем самым делает их значимыми, ценными, полезными и релевантными.
3. Определение знаний.
Определения знаний обычно сложнее, чем определения данных или информации, поскольку, как правило, в литературе об управлении знаниями много внимания уделяется расширенному обсуждению природы знаний, а также различным вариантам их представления и проявления. Это делает отбор отличительных свойств знаний труднее, чем свойств данных и информации. В частности, встречаются такие высказывания:
● «Знания – по своей сути неясный и неоднозначный термин».
● «До сих пор нет единого мнения о природе знаний, за исключением того, что они основаны на восприятии, которое может дать им рациональное обоснование».
Тем не менее знания часто определяются в терминах данных и информации.
● «Знания – это совокупность данных и информации, к которым добавляются экспертные мнения, навыки и опыт, в результате чего получается ценный актив, который может быть использован для содействия принятию решений».
● «Знания – это данные и/или информация, которые были организованы и обработаны для передачи понимания, опыта, накопленных результатов обучения и компетенции, так чтобы их можно было применить при решении текущих проблем или в текущей деятельности».
● «Знания основываются на информации, извлеченной из данных. В то время как данные отражают свойства вещей, знания относятся к способностям людей, предрасполагающим их действовать определенным образом».
С точки зрения эпистемологии разделяются неявные знания и явные.
К неявным (неформализованным) знаниям (tacit knowledge) относятся опыт, мастерство, культура мышления, интуиция, хранящиеся в нейронных структурах головного мозга как результат генетической наследственности, образования и полученных жизненных уроков. Неявные знания существуют в умах специалистов, развиваясь во времени, через опыт, почерпнутый из профессиональной деятельности, книг, наставничества, а также обучения. Эти знания зависят от жизненных ресурсов личности, от ее биофизических свойств и психологического потенциала. Они заложены в индивиде и не могут быть легко переданы другим.
К явным (формализованным) знаниям (explicit knowledge) относятся описания теорий, методов, методик, технологий, механизмов и машин, конструкций, систем и т. п. Эти знания хранятся на реальных физических носителях. Они представлены в виде книг, бумажных документов, рисунков, схем, фильмов, аудио– и видеозаписей, электронных файлов, баз данных и т. п.
Знания существуют в континууме между неявными и явными знаниями. Явные знания – это неявные знания, которые были задокументированы.
Если суммировать встречающиеся определения, то знания можно рассматривать как совокупность данных, информации, понимания, умений, опыта, навыков и ценностей. Важно отметить, что не все авторы упоминают все эти элементы.
4. Определение мудрости.
К слову сказать, далеко не все авторы, описывающие иерархию DIKW, предлагают определение мудрости.
● Мудрость – это накопленные знания, позволяющие понять, как применять идеи и представления из одной области к новым ситуациям или проблемам.
● Мудрость – это высший уровень абстракции вкупе с предвидением и способностью смотреть за горизонт.
● Мудрость – это способность действовать, подходя критически или практически в любой конкретной ситуации. Она основана на этических суждениях, связанных с системой убеждений индивида.
Очевидно, что мудрость – еще более неуловимое и расплывчатое понятие, чем знания. Оно гораздо сильнее связано с человеческой интуицией, пониманием, интерпретацией и действиями, чем с информационными системами. При этом понятия «данные», «информация» и «знания» в определениях мудрости могут и не использоваться.
Наше обсуждение определений из различных источников показывает наличие консенсуса в отношении того, что по крайней мере данные, информация и знания должны определяться в терминах друг друга, хотя в качестве входных материалов для знаний могут выступать и данные, и информация.
Рассмотрев определения элементов иерархии DIKW, коротко обсудим процессы преобразования одного элемента в другой.
1. Преобразование данных в информацию.
Как уже отмечалось, согласно общепринятым представлениям, информация рассматривается как организованные или структурированные данные. Такая обработка обеспечивает соответствие данных конкретной цели или контексту и тем самым делает их значимыми, ценными, полезными и релевантными. Другими словами, структурирование данных в соответствии с некоторой схемой, имеющей значение и актуальность для отдельного человека, сообщества или задачи, наделяет их смыслом или, возможно, потенциалом для осмысления.
Важно заметить, что все данные (как только они собраны или переданы на хранение) в информационных системах и нашем сознании наделяются определенной структурой. Информационные системы всегда кодифицируют любой элемент данных для того, чтобы поместить его в базу данных, а затем найти для последующего использования. Люди, собирающие данные, должны разобраться в них, чтобы обеспечить их хранение с учетом взаимосвязей с уже накопленной информацией. Таким образом, если информация от данных отличается наличием структуры, то получается, что мы храним как в нашем сознании, так и в наших информационных системах именно информацию.
С другой стороны, смысл, который тот или иной элемент данных в базе данных имеет для конкретного человека, команды или организации, зависит от соответствия между структурой данных и внутренней когнитивной схемой человека, команды или организации. Если мы утверждаем, что в сознании человека хранится информация (а не данные), то подразумеваем, что признак, отличающий информацию от данных, это прежде всего смысл, а не структура. С этой точки зрения все, что хранится в информационных системах, – это данные.
В литературе можно встретить различные взгляды на роли структуры и смысла при преобразовании данных в информацию. Ясной общепринятой позиции по этому вопросу пока не выработано.
В ряде работ определены основные процессы, c помощью которых данные превращаются в информацию:
● классификация;
● перестановка/сортировка;
● агрегирование;
● выполнение вычислений;
● отбор.
При этом важно еще раз отметить, что именно получатель данных определяет, является сообщение данными или информацией. Смысл данных часто определяется через ассоциации с опытом или установление связей с другими данными. Понятие смысла субъективно, и то, что один человек считает ценной информацией, другой может воспринимать как данные, не имеющие особого значения.
2. Преобразование информации в знания.
Итак, информация обычно рассматривается как данные, обработанные таким образом, чтобы быть значимыми (имеющими смысл), ценными и подходящими для конкретной цели. В то же время знания рассматриваются как информация, применимая на практике (имеющая практическое значение), или информация в сочетании с пониманием и возможностями. Но, поскольку в основе определений информации лежит смысл, а для его выявления необходимо понимание, использовать практическую применимость или понимание в качестве признаков, отличающих знания от информации, кажется затруднительным.
Кроме того, различение явного знания и информации кажется еще менее оправданным. Если знания являются достоянием людей и воплощают в себе предшествующее понимание, опыт и результаты обучения, то трудно утверждать, что явные знания, зафиксированные в документах и информационных системах, чем-то отличаются от информации.
Часто выделяют следующие процессы, преобразующие информацию в знания:
● объединение информации из многих источников в течение определенного времени;
● структурирование убеждений;
● изучение предмета и приобретение опыта;
● организация и обработка информации для передачи понимания, опыта, накопленных результатов обучения и компетенции;
● интернализация с обращением к внутренним когнитивным структурам.
3. Преобразование знаний в мудрость.
Если попытаться сформулировать суммарное определение мудрости на основе приведенных выше соображений, то можно сказать, что это способность действовать наиболее подходящим образом с учетом того, что известно (знания) и что приносит наибольшую пользу (социально-этические нормы).
Мы уже говорили, что мудрость – еще более неуловимое и расплывчатое понятие, чем знания. Оно сильно связано с человеческой интуицией, пониманием, интерпретацией и действиями. Поэтому в рамках данной книги, посвященной прежде всего управлению данными, углубляться в эти связи мы не будем. Отметим только, что важность вклада знаний (а следовательно, данных и информации) в формирование мудрости сомнений не вызывает.
На основе проведенного обсуждения можно сделать следующие выводы.
1. Иерархия DIKW в явном виде упоминается не всегда, но она подразумевается в определениях данных, информации, знаний и мудрости в большинстве источников. Обычно информация определяется в терминах данных, знания – в терминах информации, а мудрость – в терминах знаний.
2. В описании процессов, преобразующих элементы, находящиеся ниже в иерархии, в элементы, стоящие над ними, наблюдается меньшая согласованность, и из этого вытекает недостаточная четкость определений. В частности, в отношении следующих аспектов:
– Поскольку в качестве признаков, отличающих данные от информации, выделяются структура и смысл, точки зрения на то, хранится информация в информационных системах и в умах людей, или она образуется только в умах, могут расходиться.
– Определения информации (как данных, обработанных для того, чтобы быть значимыми, ценными и подходящими для конкретной цели) и знаний (как информации, имеющей практическое значение) частично совпадают. В связи с этим вопрос соотношения этих понятий нуждается в дальнейшем исследовании.
– Явные знания по своей сути практически не отличаются от информации.
Можно выделить следующие основные характеристики элементов иерархии DIKW, значения которых изменяются при переходе с уровня на уровень:
● ценность;
● cмысл;
● структура;
● широта применения;
● возможность передачи;
● необходимость участия человека при вводе (возможность автоматического ввода);
● возможность программируемой обработки;
● возможность передачи.
Изменение значений характеристик отражено на рисунке 2.3.
Уровни пирамиды знаний могут быть сопоставлены с классами информационных систем, которые преимущественно используются для работы с ними (рис. 2.4).
* Rowley J. The wisdom hierarchy: representations of the DIKW hierarchy. Journal of Information Science, 2007, 33(2), 163–180. DOI: 10.1177/0165551506070706. – URL: .
2.4. Разрыв между данными и информацией
Хотя пирамида знаний служит общепринятой устоявшейся моделью, с каждым годом появляются новые публикации с предложениями по ее корректировке на основе учета современных тенденций.
Можно обратить внимание, например, на статью. В ней справедливо отмечается, что, хотя общее количество собираемых данных стремительно возрастает, не все из них образуют базу для информации, не говоря уже о знаниях или мудрости. Нельзя не учитывать тот факт, что данные могут быть неточными или ложными. Таким образом, постоянно растущие собрания больших массивов данных также обязательно включают в себя и постоянно растущие собрания больших массивов неточных или ложных данных. На сегодняшний день нет никаких известных исследований, показывающих, остается ли удельный вес неточных или ложных данных постоянным по мере роста общего объема собираемых данных. Возможно, его величина сохраняется прежней или уменьшается, но не исключено, что доля неточных и ложных данных увеличивается. Это может происходить, в частности, из-за стремительного роста различного рода фейковых новостей или же по причине отрицательной реакции людей на сам сбор данных и т. п. Поэтому просто сбор данных не приносит особой пользы. Что действительно ценно и необходимо, так это увеличение сбора точных и достоверных данных. Приведенные соображения, естественно, предполагают, что конечная цель получения данных – обретение знаний и мудрости, и не распространяются, например, на компании, чья основная деятельность – построение и обслуживание дата-центров, собирающих и хранящих любые данные.
Исходя из этого, в статье предложена нелинейная схема, отражающая взаимоотношения элементов иерархии DIKW (рис. 2.5). На ней элементы представлены в виде перекрывающихся и соприкасающихся областей (диаграмма Венна). Данные и информация не лежат в основе знаний и мудрости, а просто частично входят в их состав. В ближайшие годы область данных, вероятно, будет расти экспоненциально, но еще неизвестно, увеличатся ли в размерах какие-либо другие области. Преимущество приведенной диаграммы в том, что она точнее отражает соотношение представленных на ней понятий, чем пирамида знаний, и, что не менее важно, ориентирует на углубление знаний и обретение мудрости, а не просто на увеличение сбора данных.
* Van Meter, Heather J. Revising the DIKW Pyramid and the Real Relationship Between Data, Information, Knowledge and Wisdom. Law Technology and Humans, 2020, Vol. 2. No. 2, 69–80. DOI: 10.5204/lthj.1470. – URL: .
Основываясь на сведениях, полученных в ходе нашего обзора взаимоотношений между элементами иерархии DIKW, можно сказать, что с точки зрения этих взаимоотношений деятельность любой организации представляет собой множество циклических цепочек преобразований «данные – информация – знания».
Данные появляются в результате выполнения каких-либо действий, например операций по продаже клиенту товара или предоставлению гражданину государственной услуги (рис. 2.6). Эти данные могут быть преобразованы в ценную информацию, в частности, если зафиксировать сведения о том, что для определенного клиента заказ выполнен повторно. В свою очередь эта информация наполняет хранилище, содержащее корпоративные знания и позволяющее на основании совокупности сведений о заказах сделать, допустим, следующий вывод: клиенты старше 40 лет лучше реагируют на недавно проведенную рекламную кампанию.
С учетом этих знаний организация может приступить к дальнейшим действиям, например провести целевую кампанию, направленную на охват клиентов в возрасте до 40 лет, что приведет к увеличению продаж. Соответственно, появятся новые данные, новая информация и новые знания, на основе которых будут осуществляться новые действия. Таким образом, цикл повторяется.
В этом цикле данные играют роль первичного строительного блока. Они возникают из действий и приводят к новым действиям. Эффективность преобразования данных в информацию определяет эффективность получения знаний, а также предпринимаемых на их основе дальнейших действий.
В этой связи область бизнес-аналитики (Business Intelligence, BI), обсуждаемую более подробно в следующих главах, можно представить как «завод по очистке данных» (рис. 2.7). Он превращает сырье (данные) в разнообразные информационные продукты: «информацию», которая собирается и агрегируется в хранилищах данных; «знания», которые собираются из запросов, сообщений и от аналитических инструментов; «планы», которые собираются по кусочкам из правил, закономерностей, моделей и схем, обнаруженных с помощью аналитических инструментов; и «действия», посредством которых бизнес-пользователи реализуют планы, генерирующие события, которые в свою очередь начинают новый цикл.
* Эккерсон У. Панели индикаторов как инструмент управления: ключевые показатели эффективности, мониторинг деятельности, оценка результатов / Пер. с англ. – М.: Альпина Бизнес Букс, 2007.
Между тем практика автоматизации большинства организаций показывает, что преобразование данных в информацию на сегодня слабейшее звено в описанной циклической цепочке. Очень часто мы наблюдаем своего рода разрыв (gap) между данными и информацией (см. рис. 2.6). Причиной могут явиться данные следующих категорий: плохо определенные, разрозненные, дублирующиеся, низкого качества или устаревшие. Кроме того, данных может быть недостаточно, или же, наоборот, слишком много. Устранение указанных слабых мест, повышение ценности данных – актуальнейшая задача для организации в современных условиях, если она хочет выжить и процветать.
Необходимым шагом в преодолении разрыва между данными и информацией является изменение отношения организации к своим данным. Она должна перестать относиться к данным как к побочному продукту (byproduct) операционной деятельности и начать рассматривать данные как стратегически важный ресурс. Об этом мы поговорим в следующей главе.
В завершение этой главы обратим внимание на следующее. Обсуждая иерархию DIKW и ликвидацию разрыва между данными и информацией, мы рассматриваем эти понятия как разные вещи, в действительности они тесно переплетены и по отдельности друг от друга не существуют. Данные – это форма информации, а информация – это форма данных, что, в частности, отмечается в DAMA-DMBOK.
При этом в DAMA-DMBOK подчеркивается, что внутри организации полезно проводить четкую границу между информацией и данными хотя бы в целях более ясного донесения требований и ожиданий по различным направлениям практической работы до различных заинтересованных аудиторий. (Пример: «Предлагаем ознакомиться с отчетом о продажах за минувший квартал [информация]. Он составлен на основе данных нашего информационного хранилища [данные]. В следующем квартале эти результаты [данные] будут использованы для создания сравнительных показателей нашей работы по отношению к предыдущему кварталу [информация]».)
Признание различий между данными и информацией, а также между целями, для которых они могут быть использованы, служит основой стержневого постулата об управлении данными: предметом управления являются и данные, и информация; при этом качество и того и другого возрастает лишь при согласованном управлении с учетом потребностей конечных потребителей. Таким образом, когда мы говорим о преодолении разрыва межу данными и информацией, мы, по сути дела, подразумеваем плавный («бесшовный») переход одного в другое. Поэтому в дальнейшем в этой книге, как и в DAMA-DMBOK, термины «информация» и «данные» используются как взаимозаменяемые синонимы (за исключением тех случаев, когда это оговаривается особо).