Книга: Big data простым языком
Назад: Основные методы управления качеством данных
Дальше: Как понять, какие измерения качества выбрать?

Как измерять качество данных?

Не буду претендовать на уникальность и вернусь к работе аудиторов. Уж очень она яркий отпечаток оставила в моей памяти. Мое вечное желание все вокруг связывать и комбинировать в поисках прорывных решений не дает мне об этом просто так забыть.
Как проверить что конкретная цифра в весьма конкретной отчетности верна?
Оказалось, очень просто: аудитор в своей работе использует так называемые «assertions» или «допущения», которые разбиты на определенные группы, коих опять конечное количество. Есть такой стандарт по международному аудиту номер 315, которым обязаны руководствоваться международные компании по аудиту. Так вот он говорит, что этих самых «assertions» в части финансовой отчетности всего 13 штук и они все поделены на три определенные группы.
Первая группа таких допущений относится к транзакциям и формируемой прибыли:
1. Наличие (Occurrence) – транзакция или событие действительно имело место и реальности произошло.
2. Полнота (Completeness) – транзакции, которые произошли, были отражены полностью.
3. Точность (Accuracy) – все данные касательно транзакций отражены без искажений.
4. Срез (Cutoff) – транзакции произошли в правильном отчетном периоде.
5. Классификация (Classification) – транзакции были отражены на правильном счете и правильной строчке.
Вторая группа уже касается остатков и самого баланса, и выглядит она следующим образом:
1. Существование (Existence) – актив, обязательство или указанный капитал действительно существуют.
2. Права и обязанности (Rights and Obligations) – то, что отражено в отчетности, и организация непосредственно это контролирует.
3. Полнота (Completeness) – все, что реально существует, все это отражено полностью во всех соответствующих строчках отчетности (активы, обязательства, капитал).
4. Оценка и распределение (Valutation and allocation) – все, что реально было, отражено корректно с точки зрения оценки этих объектов. К примеру, ценные бумаги, которыми владеет организация, должны быть отражены по самой последней рыночной котировке и так далее.

 

Третья группа уже касается непосредственно раскрытий и пояснений финансовой отчетности:
1. Существование (Occurrence) – все, что было раскрыто и пояснено в отчетности, оно действительно случилось. Если в отчетности написано, что сгорел завод, значит, он действительно сгорел.
2. Полнота (Completeness) – все, что в реальности было, тоже раскрыто. Если еще сгорел амбар помимо завода, и это важно, то это нужно раскрыть.
3. Классификация и понимание (Classification and understanability) – вся финансовая информация должна быть представлена таким образом, чтобы было все просто и понятно. Никаких сложных раскрытий и сложных описаний.
4. Точность и оценка (Accuracy and valuation) – все посчитано честно и аккуратно.
Надеюсь, сознание после этих трех групп еще не потухло, идем дальше. Когда работает аудитор, он оценивает материальные искажения в каждом из этих тринадцати измерений. Материальность отклонения также определяют по разным правилам. Так управляется риск контроля качества информации в финансовой отчетности.
Мне показался данный подход достаточно зрелым, поэтому я взял его за основу и попробовал упростить для того, чтобы сделать единую методологию.
Прежде стоит отметить, что раньше аудиторам помогали специальные напарники, которые аудировали, как работают IT-системы, хранящие первичную информацию для отчетности.
Эти люди при проверке IT-систем изучали, как работает контроль в отношении данных. Должны были быть ответы на такие простые вопросы: «Откуда данные?», «Кто может их изменить?», «Как проверяется корректность значений?», «Какие программные средства использует организация для исправления проблем?» и так далее.
Они используют опросы, изучают логи подключений к системам и на выходе, по результатам своей работы, они могут сказать, в каких из измерений, скорее всего, будет проблема.
Эти самые «assertions» можно смело назвать «измерениями», то есть некоторым разделением того, как я воспринимаю объект в реальном мире.
Главное, что они должны говорить пользователю – любое число или любые данные – само по себе объект многомерный.
Вот я держу книгу. В стандартной проекции у нее три оси – ширина от края разворота до середины, длина от одного края страницы до другого края страницы и толщина, то есть количество страниц. Книгу мы воспринимаем как физический объект в трех измерениях.
Так вот, информация сама по себе имеет много измерений, больше трех. И не факт, что их именно тринадцать. Чтобы управлять качеством этой информации, нужно управлять представлением этой информации в этих измерениях. Это сложный контекст, отчасти поэтому в качество данных мало инвестируют и мало этим занимаются, хотя, на мой персональный взгляд, ценность этого очевидна.
Чтобы стало проще, можно упростить количество тех самых измерений, в которых мы управляем качеством данных. Для простоты оставим только «полноту» и «точность» – то есть все, что произошло вокруг, отражено в информации и отражено корректно. Только два измерения.
Теперь вернемся к пресловутому и коварному отчету «аппетит к риску» – здесь мы должны посчитать размер потенциального искажения для двух измерений.
Как пострадает организация, если поймет, что не отражены только 95 % тех событий, которые произошли, или что сами 15 % событий отражены неточно? Возьмем то же поле «ИНН». Допустим, что поле заполнено только в 95 % случаев, а в заполненных оно некорректно в 15 % случаев. Пусть мы говорим о количестве записей 10 тысяч единиц известных нам, тогда потенциальный размер штрафа будет равен:
15 %*95 %*10 000 + (10000/95 % – 10000) = 1425 + 526 = 1951 записи могут быть некорректны.
Опустим как получили оценку 95 % или 15 %, для простоты считаем это экспертной позицией участников процесса работы с данными.
1951 умножаем на размер штрафа в пятьсот рублей, получаем 975 500 рублей – это потенциальный убыток от проблем с качеством данных одного поля «ИНН» для организации.
Назад: Основные методы управления качеством данных
Дальше: Как понять, какие измерения качества выбрать?