Глава 4. Данные как ресурс: особенности и подходы к управлению
4.1. Свойства данных как ресурса
Свойства данных и информации как ресурса не раз обсуждались во многих публикациях. Одна из наиболее подробных и обстоятельных – статья американских специалистов Левитина (A. Levitin) и Редмана (T. Redman) «Данные как ресурс: свойства, особенности и рекомендации». Авторы подчеркивают, что в своей работе они рассматривают исключительно данные (а не информацию и знания), потому что считают, что данные заслуживают рассмотрения сами по себе. В то же время многие выработанные ими рекомендации по управлению данными могут дополнить уже известные рекомендации по управлению информацией и знаниями, основанные на лучших практиках. Действительно, компания, которая не может эффективно управлять своими данными, вряд ли справится с работой по управлению своей информацией и знаниями.
Левитин и Редман, ссылаясь на авторитетный американский словарь The American Heritage Dictionary, приводят следующие определения понятия «ресурс» (resource):
● доступный запас, который может быть использован в случае необходимости;
● средство, которое может быть использовано с выгодой.
Таким образом, ресурсы необходимы организации для осуществления ее повседневной деятельности, а также являются потенциальным источником еще нереализованных выгод.
Имея в виду эти определения, мы можем выделить основные категории ресурсов, используемых современными организациями. Существуют традиционные ресурсы – финансовые, человеческие, здания (сооружения) и оборудование, сырье и энергия и так называемые ресурсы информационной эпохи – данные, информация и знания.
Данные можно рассматривать в двух аспектах.
● Данные как таковые – значения атрибутов, характеризующих тот или иной объект определенного типа в соответствии с некоторой моделью данных, описывающей этот тип. Например: тип объекта – сотрудник; модель данных: фамилия, имя, отчество; значения: Иванов, Иван, Иванович.
● Записи данных – физические проявления данных, размещенные в бумажных картотеках, электронных таблицах, базах данных и представляемые пользователям таким образом, чтобы их было легко хранить и использовать.
Остановимся на основных отличительных свойствах данных и записей данных и обсудим, как они соотносятся со свойствами традиционных ресурсов (табл. 4.1).
* Levitin A. V., Redman T. C. Data as a resource: Properties, implications, and prescriptions // Sloan Management Review, 1998, 40 (1): 89–101. – URL: .
1. Нематериальность
В литературе существует всеобщее согласие, что наиболее яркой характеристикой, отличающей данные от традиционных ресурсов, служит их нематериальность (intangibility). В прошлом нематериальность данных заставляла некоторых исследователей возражать против рассмотрения данных (а также информации и знаний) в качестве ресурсов. Эта точка зрения становилась непопулярной по мере возрастания роли нематериальных ресурсов во всех сферах, от традиционного производства до финансовых услуг, страхования и других отраслей, интенсивно потребляющих информацию.
При этом важно проводить различие между данными как таковыми и представлением данных на определенном носителе. Если рассматривать данные как таковые, то они явно нематериальны. Но записи данных вполне материальны, будь они на бумаге, микрофильмах или компьютерных носителях (например, оптический диск или флеш-накопитель). В некоторых случаях нам требуется специальное оборудование, такое как компьютер, чтобы убедиться в наличии записей данных, но эта потребность не делает их нематериальными.
Финансовые ресурсы (реализация которых представляет собой либо наличные деньги, либо записи данных) в принципе также можно рассматривать как нематериальные. Однако чаще их считают материальными, поскольку во многих случаях (в частности, в финансовой сфере) под материальностью понимают способность оцениваться в денежном выражении.
2. Расходуемость
Важная характеристика любого ресурса – расходуемость (сonsumability). Ресурс является расходуемым, если использование уменьшает его объем, доступный для использования в будущем. Деньги, сырье и энергия – примеры расходуемых ресурсов. Очевидно, что ни данные как таковые, ни записи данных не являются расходуемыми.
Иногда утверждается, что нерасходуемость данных отличает их от всех остальных более традиционных ресурсов. Но человеческие ресурсы, равно как здания (сооружения) и оборудование, также не подлежат расходованию в соответствии с данным выше определением. Действительно, назначение работника или машины для выполнения конкретной задачи не исключает переназначения после завершения задачи. Что касается вопросов, связанных с износом, то мы их обсудим позже, когда будем рассматривать характеристику «обесцениваемость» (depreciability).
3. Возможность совместного использования
Под возможностью совместного использования (shareability) ресурсов мы подразумеваем возможность того, что несколько пользователей могут одновременно использовать одну и ту же единицу ресурса. Ни один из традиционных ресурсов не является общим в соответствии с этим определением. Например, два пользователя не могут совместно использовать одну и ту же денежную купюру. Они могут делить здание, но не одну и ту же его часть. Однако данные для совместного использования доступны, причем двумя способами. Во-первых, одни и те же данные могут иметь несколько представлений в разных наборах записей, каждый из которых может использоваться одновременно разными пользователями. Это делает данные как таковые общедоступным ресурсом. Во-вторых, современные системы управления базами данных обеспечивают одновременный многопользовательский доступ к одним и тем же записям данных. Однако эта возможность может быть затруднена ограничениями носителя (например, бумажные записи недоступны для одновременного использования). Возможность совместного использования также может быть намеренно ограничена по соображениям безопасности с помощью шифрования или путем ограничения доступа к записям данных с помощью паролей. Совместное использование данных подразумевает как преимущества, так и опасности, которые не имеют отношения к управлению традиционными ресурсами.
4. Копируемость
Еще одно свойство данных – их копируемость (copyability): можно создать идентичную единицу рассматриваемого ресурса за долю стоимости оригинала. В данном определении требование к снижению стоимости имеет решающее значение, поскольку без него мы были бы вынуждены заключить, что оборудование, сырье и энергия также являются копируемыми ресурсами. На самом деле, конечно, копируются записи данных, а не сами данные.
Поскольку компьютерные записи являются как нерасходуемыми, так и совместно используемыми, теоретически нет необходимости их копировать. Более того, дополнительные копии не только требуют дополнительных носителей, но и, что важнее, создают проблему поддержания согласованности. С другой стороны, для копирования есть практические причины. Во-первых, оно позволяет пользователям работать с данными в более удобных условиях. Во-вторых, дает им возможность контролировать свою собственную копию данных, что может быть важным по различным политическим соображениям. В-третьих, копирование может повысить долговечность данных – снизить вероятность их непреднамеренного уничтожения (см. ниже). Определение желаемой степени избыточности – важный вопрос при управлении данными как ресурсом.
5. Транспортабельность
Как бы ни была важна способность к копированию, именно транспортабельность (transportability) положила начало информационному веку, обеспечивая почти мгновенный перенос данных на большие расстояния. Возможность локального копирования данных существовала еще до того, как прогресс в области телекоммуникационных технологий сделал возможной передачу данных между удаленными пунктами. (Если быть точным, электронная передача данных на самом деле является не транспортировкой записей данных, а скорее созданием копий в пункте назначения.)
Эффективность современных телекоммуникаций не ограничивается скоростью передачи данных; качество и экономическая эффективность одинаково впечатляют. За исключением, возможно, электроэнергии, никакие другие ресурсы не могут транспортироваться с такой легкостью и эффективностью, как данные, хранящиеся в электронном виде. Другое возможное исключение – деньги, которые также могут передаваться в электронном виде.
6. Незаменяемость
Заменяемость (fungibility) означает, что одна единица рассматриваемого ресурса может быть заменена другой единицей того же ресурса, если последняя доступна. Деньги, сырье и энергия заменяемы. Человеческие ресурсы, здания (сооружения) и оборудование также заменяемы, хотя их замена может быть дорогостоящей и неудобной. Но единицы данных (т. е. отдельные элементы данных) уникальны: мы не можем заменить дату рождения человека другим элементом данных (например, элементом «имя» или «пол») об этом человеке или о ком-то другом. Хотя иногда мы можем вывести значение одного элемента данных из значения другого (например, определить возраст на основе даты рождения), такие ситуации являются исключительными. Что касается записей данных, мы, очевидно, можем заменить одну запись другой, если они обе представляют один и тот же элемент данных.
Незаменяемость (nonfungibility) данных вызывает особые проблемы управления. Например, в качестве защиты от возможных дефектов в единицах других ресурсов менеджеры могут выбрать сохранение большего объема рассматриваемого ресурса. Но для данных эта стратегия бессмысленна: дефектный элемент данных не может быть заменен другим элементом данных. И конечно, хранение дополнительных копий записей данных не поможет, если копии сделаны с негодного оригинала или устарели.
7. Недолговечность
Под недолговечностью (fragility) ресурса мы подразумеваем легкость, с которой он может быть непреднамеренно уничтожен или потерян при обычном использовании. Традиционные ресурсы обычно не квалифицируются как недолговечные. Ситуация с данными совершенно иная. Хотя бумажные записи могут быть непреднамеренно потеряны или уничтожены, именно удивительная легкость, с которой записи данных, хранящиеся в компьютере, могут быть непреднамеренно перезаписаны или полностью стерты, заставляет нас считать их недолговечными. Кроме того, оцифрованные данные могут быть случайно уничтожены, когда новые информационные системы заменяют старые, или могут быть легко потеряны среди больших объемов других данных. Конечно, хранящиеся на компьютере данные могут быть защищены от перезаписи и регулярно дублироваться в виде резервных копий. Тем не менее многим пользователям не хватает навыков, необходимых для уверенной работы с такими механизмами защиты. Учитывая недолговечность данных, неудивительно, что многие пользователи склонны превышать меры разумной осторожности. Практика показывает, что неоправданное распространение копий данных часто вызвано беспокойством о недолговечности данных.
8. Универсальность
Универсальный (versatile) ресурс – ресурс, который может быть использован для различных целей. Например, конкретное сырье для конкретного производственного процесса может иметь ограниченное альтернативное применение. С другой стороны, деньги имеют самый широкий спектр возможного использования. Данные занимают среднее положение между этими двумя полюсами.
Универсальность данных, наряду с их другими свойствами, предоставляет организациям ценные источники новых возможностей для развития бизнеса и улучшений. Один из примеров – целевой (targeted) маркетинг, основанный на данных (data driven). Отрицательной стороной универсальности данных является возможность злоупотреблений. Например, когда данные, законно собранные для одной цели, используются для другой, незаконной. Данные о возрасте и состоянии здоровья человека, законно собранные в медицинских целях, не должны влиять на возможности продвижения этого человека по службе. Неоднозначности в семантике данных усугубляют эту проблему. Например, продавец может считать продажу завершенной, когда он и клиент устно договорились о сделке. Но юридический отдел не считает продажу завершенной, пока не подписан контракт, производственный отдел – пока продукт не доставлен, а финансовый отдел – пока не получен платеж.
Практическая важность проблем неверно истолкованной семантики данных часто недооценивается. В результате принимаются неоптимальные, даже крайне неправильные решения. Кроме того, ошибочное толкование семантики данных может привести к конфликтам. Например, все различные интерпретации продажи верны с точки зрения (обычно ограниченной) функциональных подразделений. Поэтому следует ожидать, что они будут энергично защищать свои интерпретации. Это может поставить в тупик компанию, которой необходимо увеличить продажи.
9. Оцениваемость
Под оценкой (valuation) ресурса мы подразумеваем выражение его ценности в денежном эквиваленте. Для традиционных ресурсов ценность определяют либо рыночные силы, либо устоявшаяся практика бухгалтерского учета. Хотя некоторые наборы данных можно купить на открытом рынке (например, исторические показатели финансовых рынков, данные о точках продаж, многие виды списков клиентов), большинство наборов данных не подлежат продаже, и их оценка создает сложные теоретические и практические проблемы.
Десятилетия исследований этих проблем не дали четких результатов по нескольким причинам: неспособность отделить информационное содержание от информационных технологий, склонность анализировать данные как заменяемый товар или ресурс, отсутствие внутренней (intrinsic) ценности данных (т. е. ценность данных зависит от конкретных приложений), а также универсальность использования данных.
Оценка данных вызывает несколько дополнительных проблем. Во-первых, всегда легче оценить затраты на данные, чем оценить стоимость приносимых ими выгод, что может привести к ошибочным решениям не получать данные, полезность которых вызывает сомнения. Во-вторых, проблемы, связанные с внутренними ценами на передачу данных, могут быть трудноразрешимыми. Например, некоторые организации взимают с пользователей плату за доступ к наборам данных. Такая практика может препятствовать использованию и в итоге противоречить намерениям руководства. С другой стороны, без выяснения готовности пользователей платить трудно отсеять те наборы данных, которые не приносят никакой пользы.
10. Обесцениваемость
Обесценивание (depreciation) определяется как уменьшение или потеря стоимости из-за износа, возраста или по другим причинам. Здания, оборудование и большинство сырьевых материалов (кроме энергии) обесцениваются. Потеря стоимости финансовых и людских ресурсов неоднозначна: для первых она осложняется возможностью инфляции и дефляции, для вторых трудности связаны с различными соотношениями между возрастом и производительностью труда, а также с различиями между отдельными работниками.
Ценность данных обычно не уменьшается из-за использования. Но есть и исключения. Чем больше людей используют информацию о состоянии курсов акций на бирже, тем меньше ее ценность для каждого человека. Аналогичным образом, предприятия не продают и не делятся своими данными, поскольку это может снизить их ценность. Во многих случаях имеет значение истечение времени. Если представляют интерес только текущие значения атрибутов (например, размер зарплаты), они должны обновляться по мере изменения аспектов реального мира, которые они описывают. Если данные имеют временны́е метки, то они, как правило, становятся менее ценными с течением времени (например, данные о зарплате сотрудника за текущий год, вероятно, будут намного менее ценными через десять лет). Но здесь также есть исключения. Методы интеллектуального анализа данных (data-mining) обеспечивают успешное использование подробных исторических записей, поэтому более старые данные могут быть весьма ценными. Таким образом, в большинстве случаев, за некоторыми исключениями, данные не обесцениваются с использованием, но они обесцениваются с течением времени.
11. Множественность источников
Как правило, традиционные ресурсы производятся за пределами организации, использующей их, за исключением финансовых ресурсов, которые могут образовываться как вне, так и внутри компаний. Такая же дихотомия источников происхождения существует и для данных.
В отличие от других ресурсов, данные генерируются огромным количеством источников. Каждая операция с поставщиками и клиентами, большинство внутренних операций, а также управленческая и экспертная деятельность – все это порождает данные. Хотя по отношению к данным применимы такие модели управления, как «потребитель – поставщик», само разнообразие источников данных добавляет массу сложностей.
Часто источники многих наборов данных не документированы или даже неизвестны. Как правило, эти данные не могут быть ни использованы, ни улучшены. Интернет только усугубляет проблему. Конечно, мы не всегда знаем источник других ресурсов, например нескольких литров бензина. Но согласованные стандарты помогают гарантировать, что бензин из разных источников взаимозаменяем. Наличие же у данных такого свойства, как незаменяемость, препятствует стандартизации и осложняет работу с источниками.
12. Возобновляемость
Всякий раз, когда реальный мир меняется, описывающие его данные также изменяются или создаются новые данные. Новые данные появляются в результате повседневной деятельности организаций или индивидуумов с поразительной скоростью. Это свойство данных, которое можно назвать возобновляемостью (renewability), в гораздо меньшей степени относится к другим ресурсам, за исключением, возможно, солнечной энергии. Другие ресурсы, конечно, могут быть возобновлены. Но спонтанный характер, скорость и степень обновления данных гораздо выше, чем у любого другого ресурса.
Ситуация немного сложнее для записей данных. В большинстве случаев требуется время и усилия, чтобы изменения были отражены. Например, адрес человека меняется в день его переезда, но до обновления базы данных проходит некоторое время. Информационные технологии могут уменьшить время задержки во многих ситуациях, но оно не может быть устранено полностью.
Естественно, менеджеры хотят использовать последние данные. Свойство возобновляемости выдвигает для исполнения этого желания два требования. Во-первых, поскольку обеспечение актуальности данных – важная задача, бизнес-процессы, фиксирующие изменения, должны быть надежными. Во-вторых, механизмы обеспечения актуальности должны быть синхронизированы, иначе в избыточных базах данных обязательно возникнут несоответствия. При неучете этих требований совещания по принятию решений могут перерасти в жаркий обмен мнениями о том, чьи данные точнее.
13. Компьютерное (электронное) хранилище
Данные, в отличие от большинства других ресурсов, могут храниться на компьютерах (в электронных хранилищах). Исключение составляют финансовые ресурсы, которые могут храниться в виде электронных денежных средств. Это свойство вносит свой вклад в обеспечение других свойств, таких как копируемость, возможность совместного использования и транспортабельность. Электронные средства хранения облегчают управление данными, поскольку стоимость хранения данных невелика по сравнению со стоимостью хранения других ресурсов. С другой стороны, дешевое хранилище может способствовать принятию решений о сохранении всего, включая данные, которые больше не нужны. Непреднамеренным последствием является то, что полезные данные становится труднее найти. Дешевое хранилище также может способствовать принятию несколькими подразделениями в рамках организации независимых решений о хранении собственных копий, что приводит к избыточности данных.
В следующем разделе мы обсудим, каким образом специфические свойства данных влияют на подходы к управлению этим ресурсом.
4.2. Особенности управления данными как ресурсом
Управление любым ресурсом направлено на достижение следующих целей:
● иметь достаточный, но не чрезмерный запас ресурса, основанный на потребностях пользователей и моделях использования;
● предоставлять законным пользователям своевременный и эффективный доступ к ресурсу;
● защищать ресурс от незапланированного уничтожения и несанкционированного доступа и использования; поддерживать и улучшать качество ресурса;
● содействовать эффективному использованию ресурса для максимальной выгоды организации.
Для каждой из этих целей в отношении данных можно выделить особенности управления, связанные с рассмотренными в предыдущем разделе фундаментальными свойствами этого ресурса.
1. Управление поставками
Основные вопросы управления поставками включают определение пользователей ресурса, их потребностей и моделей использования, а также принятие мер по получению ресурса. Для традиционных ресурсов, таких как сырье, новые технологии позволили применять подход к управлению запасами «точно в срок». Аналогичные подходы могут быть применены и к управлению поставками данных (во избежание создания ненужных данных), но при этом нельзя недооценивать возникающие проблемы.
Прежде всего незаменяемость данных подразумевает, что проблема поставок заключается не в том, чтобы верно определить количество необходимых единиц ресурса, а скорее в релевантности данных. Ключевой вопрос для менеджеров не в том, сколько единиц данных необходимо, а в том, каких именно данных.
Во-вторых, в то время как нерасходуемость данных устраняет одну из проблем управления поставками традиционных ресурсов – недостаточность, она создает хорошо знакомую проблему переизбытка данных. Хранение ненужных данных обходится дорого не столько потому, что это приводит к уменьшению свободного места на носителе, сколько потому, что отвлекает внимание руководства и затрудняет поиск необходимых данных. Только лишь получение достоверной информации о различных данных, хранящихся в большой организации, – достаточно сложная задача.
В-третьих, определить пользователей и понять их потребности гораздо сложнее для данных, чем для других ресурсов. Кроме того, часто приходится согласовывать требования к данным разных пользователей (например, различные семантические интерпретации, казалось бы, одинаковых терминов), что также сложная проблема, с которой не сталкиваются традиционные ресурсы.
В-четвертых, некоторые запросы на получение данных являются изменчивыми и непредсказуемыми. Нерасходуемость данных не устраняет потребности знать шаблоны их использования (в частности, с целью обеспечения своевременного обновления значений данных и гарантирования их актуальности).
В-пятых, как упоминалось ранее, стоимость и ценность данных плохо изучены, что затрудняет определение потерь, вызванных отсутствием данных (по сравнению с затратами на поддержание их избыточного объема). Кроме того, для традиционных ресурсов, несмотря на дополнительные расходы и неудобства, как правило, можно удовлетворить неожиданный всплеск спроса (за счет заимствования денег, найма временных работников и т. д.). К данным это не относится.
Наконец, традиционные ресурсы обычно приобретаются под контролем одного подразделения, ответственного за приобретение ресурсов для всей организации. Данные же собираются или производятся отдельными подразделениями для удовлетворения их собственных потребностей практически без централизованного контроля, что облегчается развитием децентрализованных и мобильных вычислений. При этом один из наиболее важных вопросов в управлении поставками ресурсов – выбор поставщиков. Для многих традиционных ресурсов доступны или могут быть легко получены списки существующих альтернатив и критериев выбора (например, цена, качество). Это редко обеспечивается в отношении данных. К счастью, к поставщикам данных могут быть успешно применены общие принципы управления взаимоотношениями между клиентами и поставщиками.
2. Предоставление доступа
Если у организации есть необходимые ресурсы, то пользователи должны иметь к ним доступ. Хотя все понимают трудности с привлечением людей и оборудования для расчистки территории склада после неожиданной метели, справедливо сказать, что вопросы доступа к данным гораздо сложнее, чем для других ресурсов. Проблемы варьируются от архитектуры программных и технических средств для хранения данных и обеспечения доступа к ним до возможности пользователей находить нужные им данные и обмена данными.
В большинстве случаев только данные, хранящиеся в электронном виде, могут удовлетворять требованиям по доступу в современной организации. С учетом прогресса в скорости и доступности электронных накопителей вызывает недоумение, что большие объемы данных все еще хранятся в виде бумажных записей. Возможности по мгновенному переносу записей данных, хранящихся в компьютерах, способствовали концентрации важных для организации сведений в больших базах данных мейнфреймов, доступных пользователям с удаленных терминалов. Какое-то время эта архитектура казалась техническим решением проблемы доступа к данным, однако быстрое распространение персональных компьютеров и новых способов создания сетей привело к созданию клиент-серверных архитектур и распределенных баз данных. Похоже, что как только какая-либо архитектура организации данных получает широкое признание, технический прогресс и новые требования пользователей делают ее устаревшей.
Из этой динамичной трансформации можно вынести несколько уроков. Хотя компьютеры обеспечивают мгновенный доступ к данным, хранящимся в электронном виде, большинство крупных организаций сталкиваются с ошеломляющим разнообразием данных, разработанных для отдельных бизнес-задач, при недостаточной координации решений в части аппаратных средств и программного обеспечения, а также подходов к моделированию данных. Обеспечение эффективного доступа к данным в этих средах хранения и обработки затруднено. Многие пользователи даже не знают, где искать нужные им данные.
Таким образом, первый урок заключается в том, что, пока ресурс данных не будет сформирован (или, что более реалистично, переформирован) в качестве общеорганизационного ресурса, никакое технологическое новшество не гарантирует эффективного доступа к данным организации. Во-вторых, скорость доступа к данным оказалась лишь одним из критериев эффективности. Важны и другие, особенно контроль и гибкость. Это привело к тому, что организации хранят данные, используемые в операционных целях, в транзакционных системах, а данные для поддержки принятия решений – в хранилищах и витринах данных. Следует ожидать, что подобная запланированная сегментация продолжится. И конечно, как число пользователей, так и уровень их требований к данным будут быстро расти. В-третьих, потребителям данных следует ожидать дальнейшего совершенствования технологических средств их хранения и передачи, а также пользовательских интерфейсов. Периодически накапливаемые изменения требований будут приводить к серьезным изменениям в организации данных и доступе к ним.
Совместное использование данных вызывает дополнительные проблемы. Теоретически сочетание свойств данных, включая возможность совместного использования, нерасходуемость и транспортабельность, должно способствовать созданию разнообразных эффективных механизмов совместного использования. Однако на практике их реализация вызывает затруднения из-за множества технических проблем (хотя в целом технические решения имеются). Различного рода политические вопросы еще более запутаны. Как правило, данные собираются и используются подразделениями организации для выполнения своих конкретных задач без учета потребностей других подразделений или организации в целом. Владение данными расширяет влияние. Поэтому мотивация сообщать другим о наличии данных (не говоря уже о том, чтобы делиться ими) не очень высока.
3. Безопасность
Забота о безопасности любого ресурса связана с двумя основными проблемами: защитой от незапланированного уничтожения и предотвращением доступа неавторизованных пользователей. Но данные вводят новые проблемы. Во-первых, несанкционированный доступ к важным данным может иметь более серьезные последствия, чем доступ к любому другому ресурсу, даже к деньгам. Во-вторых, хрупкость и невосприимчивость данных делают проблему безопасности особенно острой. В-третьих, нерасходуемость данных снижает вероятность того, что организация обнаружит несанкционированное использование, просто наблюдая, что количество данных уменьшается. Тот факт, что использование данных, хранящихся в электронном виде, не требует их близкого физического расположения, усугубляет ситуацию. В то же время плюсом является то, что копируемость данных предполагает простую стратегию их защиты от возможного уничтожения путем периодического создания резервных копий. Кроме того, существует ряд дополнительных методов защиты данных, включая шифрование данных, программное обеспечение для обнаружения вирусов и программное обеспечение для контроля доступа. Но несмотря на наличие этих инструментов и очевидную важность безопасности, различные исследования показывают недостаточность усилий, направленных на обеспечение безопасности во многих организациях.
Менеджеры должны учитывать вопросы конфиденциальности и приватности. Очевидно, что универсальность данных угрожает конфиденциальности: данные, собранные без каких-либо возражений против возможного нарушения конфиденциальности для одной цели, вполне могут повлечь опасность такого нарушения при других вариантах использования. Существует противоречие между перспективами интеллектуального анализа данных и поиска неизвестных сведений о клиентах и их ожиданиями в отношении приватности. Хотя информация о политике и практике организаций, касающихся конфиденциальности, доступна, вопросы, связанные с конфиденциальностью и приватностью, нельзя назвать полностью решенными.
4. Качество
Почти для всех организаций качество данных стало одной из основных проблем. Хотя в сфере ИТ акроним GIGO известен уже довольно много лет, особая озабоченность по поводу качества данных как в частном, так и в государственном секторе, возникла лишь недавно. Признание важности качественных данных растет с каждым днем.
Понимание природы данных способствует эффективному управлению качеством данных. Во-первых, обеспечение качества данных включает в себя вопросы, связанные с моделями данных, значениями атрибутов и записями данных. Даже, казалось бы, обыденные решения по моделированию данных могут иметь огромные последствия – достаточно вспомнить трудности и расходы, связанные с «проблемой 2000 года», которая была вызвана решениями сэкономить несколько байтов памяти. Во-вторых, данные абстрактны, поэтому мы не можем определить их качество путем прямого измерения (как, например, можем измерить химический состав сырья). Обычно мы должны сравнивать данные с реальными объектами, которые они описывают, что может быть дорогостоящим или, для некоторых исторических данных, невозможным. В-третьих, из-за незаменяемости данных мы не стремимся к единообразию. Поэтому здесь трудно применять стандарты и дефектный элемент данных не может быть просто заменен другим элементом требуемого качества. В-четвертых, из-за таких свойств данных, как возможность совместного использования, копируемость и транспортабельность, дефектные элементы данных могут почти мгновенно достигать большого числа пользователей. В этом отношении некачественные данные подобны вирусу. Невозможно сказать, где они появятся и какое влияние окажут. В-пятых, в отличие от других ресурсов, требуемые уровни качества обычно неизвестны пользователям. Наконец, сам объем обычно создаваемых и хранимых данных усугубляет проблемы управления их качеством.
К счастью, решения большинства из этих проблем находятся и многие организации успешно улучшают качество своих данных. Наиболее эффективные стратегии улучшения, как правило, сосредоточены не на поиске и выявлении ошибок, а на выявлении и устранении их коренных причин. Программы обеспечения качества данных нелегко реализовать, но те организации, где они внедрены, сообщают о хороших результатах: снижении затрат, повышении удовлетворенности клиентов и более уверенном принятии решений.
5. Управление использованием
Использование любого ресурса наиболее выгодным образом – всегда сложная задача. Что касается традиционных ресурсов, то основная проблема – это их распределение между подразделениями организации на основании запросов на определенные ограниченные объемы. Классический пример – запрос финансов (формирование бюджета). Проблемы оптимизации использования данных совсем иные. Во-первых, многие организации не используют эффективно уже доступные данные. Большинство организаций достаточно эффективно используют данные в операционной деятельности, но гораздо хуже – в планировании и принятии решений (многие организации признают, что они «богаты данными и бедны информацией»).
За последнее десятилетие появилось много новых методов, технологий и инструментов, позволяющих эффективно использовать данные, но только небольшое количество организаций активно применяют их в своих интересах. Даже те, кто добился успеха, использовали лишь малую долю потенциала своих данных.
Вопрос использования становится еще более важным на стратегическом уровне. Фундаментальные вопросы (какие данные нам понадобятся для выполнения такой стратегии? как мы можем использовать данные для создания новых возможностей? как доступ к новым видам данных повлияет на нашу стратегию?) редко всплывают. При этом вполне вероятно, что рациональное использование данных будет еще более важным условием успеха в будущем по двум ключевым причинам. Во-первых, управление традиционными ресурсами основано на данных, что делает их метаресурсом. Во-вторых, конкуренция в течение предыдущих десятилетий несколько уравняла рыночных игроков с точки зрения использования традиционных ресурсов, выделив данные в качестве потенциально наиболее перспективного источника для получения конкурентных преимуществ.
В конечном счете язык, на котором говорят все менеджеры, – это финансы. Поэтому следует заметить, что в основе большинства проблем использования данных лежит трудность их оценки.
6. Дополнительные особенности
Можно выделить еще две дополнительные особенности управления данными.
Во-первых, организационные вопросы вносят свой вклад во многие проблемы, которые мы обсудили выше. Вопросы владения и подотчетности в отношении данных не решены в большинстве организаций. Политическая борьба за контроль над данными и информацией одна из самых упорных. Кроме того, до сих пор нет полного консенсуса по поводу определения соответствующей управленческой инфраструктуры. Хотя современная иерархическая форма управления может не в полной мере подходить для информационной эпохи, она пока сохраняет свои позиции.
Во-вторых, ни один другой ресурс не испытывает таких взрывоопасных изменений, как данные, в том, что касается его растущей важности и тех технологических средств, с помощью которых он приобретается, хранится, транспортируется и используется. Это состояние почти непрерывных изменений делает маловероятным полное разрешение всех обозначенных проблем в краткосрочной перспективе.
4.3. Концепция управления информационными ресурсами
Отмеченные выше особенности управления данными как ресурсом привели к постепенному формированию концепции управления информационными ресурсами – Information Resource Management (IRM). IRM рассматривает данные как ресурс организации, который имеет жизненный цикл, подразумевающий создание, распространение, использование и утилизацию. В центре внимания этого подхода – максимизация эффекта, получаемого c помощью данных, по сравнению с затратами на их сопровождение,,.
Один из наиболее развитых вариантов реализации IRM был представлен в 1988 году в книге Барка и Хортона «Информационная карта: Полное руководство по выявлению корпоративных информационных ресурсов» (отмеченной в предыдущей главе). Авторы рассмотрели вопросы выявления информационных ресурсов, жизненно важных для деятельности организации. Подход касался информационных ресурсов, уже имеющихся в организациях, и определения способов их использования. Информационным ресурсам ставилась в соответствие та или иная ценность на основе стратегических весов (общая бизнес-стратегия организации определяет критерии для взвешивания отдельных информационных ресурсов с точки зрения их полезности для конкретных стратегий). Затраты на поддержание ресурсов рассматривались только после назначения весовых коэффициентов. Было предложено введение в организации регулярной практики оценки полезности информационных ресурсов по отношению к затратам на их поддержание. Регулярный информационный аудит обеспечивал достижение наилучшей отдачи от понесенных затрат. Принципиальное значение имела установленная Барком и Хортоном связь между бизнес-стратегией и информационными ресурсами.
Различные авторы по-разному расставляют акценты при описании реализации концепции IRM, тем не менее можно выделить ряд ключевых элементов. Довольно полно такие элементы описаны Левитиным и Редманом в виде рекомендаций для компаний по управлению данными как ресурсом.
1. Внедрите целенаправленную внутреннюю программу качества данных
Как отмечалось выше, обеспечение качества данных подразумевает учет множества соображений. Два из них наиболее просты: обеспечение четкого определения моделей данных и точности значений данных. Создатели моделей данных и редакторы значений данных (сотрудники, осуществляющие первоначальный ввод и корректировку значений) должны нести ответственность за четкое определение данных и точность. Менеджеры должны снабдить создателей моделей и редакторов данных инструментами управления качеством, включая средства, позволяющие осуществлять анализ потребностей клиентов, измерение, контроль качества, анализ первопричин недостатков. Преимущества получают как создатели моделей и редакторы, так и пользователи данных. Пользователи выигрывают, потому что данные, которые они используют, легче понять и интерпретировать, и они могут использовать их с уверенностью. Создатели моделей и редакторы выигрывают, потому что сокращаются затраты, которые они несут, отвечая на вопросы и внося исправления.
2. Внедрите программу управления поставщиками данных
Такие программы аналогичны внутренним программам обеспечения качества данных, но направлены на улучшение работы с поставщиками данных вне организации. Программы управления поставщиками ресурсов доказали свою огромную эффективность в производстве. Аналогичные программы в отношении данных, должным образом утвержденные, приносят огромную выгоду от поставки нужных данных при низких затратах на внедрение.
Существует множество способов определения и реализации программ управления поставщиками данных. Все они в той или иной степени сосредоточены на качестве данных, поэтому настоящая рекомендация тесно связана с первой.
3. Постоянно уточняйте свои потребности в данных
Большинство организаций имеют гораздо большее количество данных, чем могут использовать, но в то же время у них нет данных, которые им действительно нужны. Зачастую в основе этой проблемы лежит неспособность четко определить, как будут использоваться данные. Гораздо легче просто их собирать. В результате накапливается слишком много данных сомнительной ценности. Для разрешения подобных ситуаций следует подробно определить наиболее важные направления использования данных, перевести эти направления в требования к данным, сообщить об этих требованиях поставщикам данных и исключить из дальнейшего рассмотрения данные, которые не соответствуют требованиям.
4. Определите наиболее важные информационные цепочки и обеспечьте управление ими
Информационные цепочки – это кросс-функциональные бизнес-процессы, в рамках которых осуществляется манипулирование необработанными (сырыми) данными (полученными из внешних источников или созданными внутри компании), преобразование их в более ценные данные или информацию, предоставление доступа к ним потребителей и использование их для создания бизнес-ценности. В большинстве организаций управление отдельными функциями и их выполнение осуществляются довольно эффективно. В то же время управление взаимодействием функций реализовано плохо, отчего страдает итоговый результат. Следует определить наиболее важные информационные цепочки и применить к ним методы управления процессами, принятые для обработки данных. Первый шаг – определение кросс-функциональной подотчетности менеджеров.
5. Пересмотрите роль ИТ
ИТ позволяют хорошо налаженным и управляемым информационным цепочкам работать быстрее и дешевле с большей пропускной способностью. Но технология сама по себе или, что еще хуже, технология в сочетании с неэффективным управлением данными не является решением. Чрезмерная зависимость от ИТ в этом случае только усугубляет проблемы. Организации должны сначала наладить управление информационными цепочками и упорядочить их, прежде чем применять новейшие технологии. Нельзя автоматизировать беспорядок.
6. Обеспечьте разработку, ведение и предоставление широкого доступа к реестру наборов данных
Большинство организаций понятия не имеют о том, какие данные у них есть, какие наиболее важные, каковы их источники и степень избыточности. Информационные цепочки – это источники большого количества данных, и они могут быть наиболее важным элементом реестра наборов данных. Разработка полного реестра может оказаться очень сложной задачей и не стоить затраченных усилий. Но организация в состоянии по крайней мере разрабатывать, обновлять и публиковать перечень наиболее важных наборов данных и их источников. Целесообразно начать решать эту задачу с внедрения процесса, который захватывает новые данные и определяет их источники. Как только этот процесс будет реализован, можно перейти к внедрению процесса идентификации и добавления существующих данных.
7. Определите условия и правила, в соответствии с которыми одно подразделение организации может иметь доступ к данным другого подразделения
Большинство организаций и частных лиц неохотно делятся данными. Естественно, существует множество обстоятельств, при которых данные не должны передаваться. Но в общем случае они не должны утаиваться. Четко оговоренные условия и правила должны рассматривать все аспекты разрешенного использования данных: случаи перепродажи данных организацией, предоставляющей доступ; справедливую цену передачи; технические средства доступа; обеспечение качества; средства разрешения конфликтов и т. п.
8. Учитывайте возможность политических противостояний, которые невозможно выиграть, и предотвращайте их
Примером может служить, казалось бы, безобидная задача определения понятия «клиент», которое будет использоваться во всей компании. Такое определение может потребоваться, например, для облегчения ведения бизнеса с этой компанией или для выявления возможностей перекрестной продажи продуктов и услуг. Но у разных подразделений несколько различающиеся отношения с клиентами. Накопленный опыт и знания для ведения бизнеса отражены в модели данных каждого подразделения. И эта модель данных стала формальным определением клиента. Задача разработки общего определения эквивалентна тому, чтобы попросить каждое подразделение снизить эффективность своего способа работы с клиентами. Ни одно подразделение не согласится на это, если только новый способ не будет явно лучше.
9. Четко определите ответственность менеджмента за данные
Возможно, было бы целесообразно включить эти обязанности в общую политику в области данных. Поскольку ни одна организация не может реализовать перечисленные здесь рекомендации одновременно, политика должна развиваться по мере реализации отдельных рекомендаций.
10. Обеспечьте возможности по участию в руководстве программой управления данными менеджеров высшего звена
Описанные проблемы достаточно сложны. Плохие данные могут распространяться как вирус, в то время как хорошие данные остаются запертыми в местах хранения. Обсуждаемые здесь рекомендации требуют, чтобы все менеджеры и подразделения выполняли свою часть работы. Без сильного руководства со стороны топ-менеджмента программы управления данными рискуют стать жертвой разрозненных планов деятельности функциональных блоков и их руководителей.
Каждая из рассмотренных рекомендаций требует строгой подотчетности менеджмента за данные. В этой связи одна из распространенных ошибок заключается в предположении, что если данные находятся в компьютерах, то ответственность за них должен нести директор по ИТ. В то время как ИТ-директор может нести ответственность за базовую технологию, большая часть данных генерируется и используется операционными и принимающими решения подразделениями, которые не находятся под его контролем. ИТ-директор в соответствии со своей сферой ответственности часто не осведомлен о важных данных организации. Ответственность за них должна лежать на тех, кто находится ближе к созданию и использованию данных.
Выделенные выше рекомендации 5 и 8 (роль технологий и предотвращение политических противостояний) зависят от индивидуальной инициативы. Обеспечение выполнения рекомендаций 1–3 (программа качества, программа управления поставщиками и уточнение потребностей в данных) обычно должно входить в сферу ответственности функциональных блоков, хотя общие инструменты и методы может предоставлять централизованная функция. Рекомендация 4 (информационные цепочки) требует кросс-функционального согласования. Обеспечение выполнения рекомендации 6 (реестр наборов данных) – обычно централизованная функция. Рекомендация 7 (условия и правила обмена данными) требует согласия подразделений, владеющих данными.
Данные создаются и используются в огромных количествах в различных видах деятельности, начиная от самой обыденной операции и заканчивая самым далеко идущим стратегическим решением. Ими редко хорошо управляют. Чтобы улучшить эту ситуацию, организации и менеджеры должны понимать свойства данных и управлять ими как ресурсами. Как мы уже обсуждали в начале этой главы, данные, в отличие от многих обычных ресурсов, нематериальны, легко копируются и транспортируются, а также возобновляемы. Поэтому на них следует смотреть (и управлять ими) несколько иначе, чем на остальные ресурсы. Описанные рекомендации помогут организациям извлечь из них наибольшую выгоду.
Литература к главе 4
• DAMA International. DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition. Technics Publications, 2017. (Русский перевод: DAMA-DMBOK: Свод знаний по управлению данными. Второе издание / Dama International. – М.: Олимп-Бизнес, 2020.)
• Laney D. B. Infonomics: How to Monetize, Manage, and Measure Information as an Asset for Competitive Advantage; Routledge; 1st edition, 2017. (Русский перевод: Даглас Лейни. Инфономика: информация как актив: монетизация, оценка, управление. – М.: Точка, 2020. – [Библиотека «Айтеко»].)