Книга: Шанс есть! Наука удачи, случайности и вероятности
Назад: Я, алгоритм
Дальше: Давайте потеряемся

Сила единицы

Время от времени мир загорается той или иной идеей. Закон Бенфорда – одна из них. Нужно лишь подсчитать количество разных цифр в наборе чисел, чтобы узнать, насколько случайно они распределены. Как показывает Роберт Мэтьюз, эта простенькая идея не раз отправляла людей за решетку. Если вы хотите нарушить закон, пусть даже и Бенфорда, имейте в виду: вас ждут большие неприятности.

 

Когда Алекс попросил своего зятя помочь ему с курсовой, он и понятия не имел, какую мрачную тайну ему предстоит открыть. Изучая бухгалтерское дело в Университете Святой Марии в Галифаксе (Новая Шотландия), Алекс столкнулся с необходимостью проанализировать какие-нибудь реальные коммерческие цифры. И магазин бытовой техники, принадлежащий зятю, показался ему вполне очевидным источником таких данных.
Бегло проглядывая сведения о продажах за год, Алекс не обнаружил в них ничего особенно странного, но все равно проделал над ними диковинную процедуру, которую требовал от своих студентов профессор Марк Нигрини, преподаватель бухгалтерского дела. Алекс подсчитал, какая доля чисел, обозначающих выручку от продажи товара, начиналась с цифры 1. Эта доля составила 93 %. Он спокойно сдал курсовую и забыл об этих результатах.
Позже, читая студенческие работы, Нигрини наткнулся на эту величину и сразу же понял: здесь может возникнуть очень деликатная ситуация. Его подозрения лишь укрепились, когда он просмотрел остальную часть анализа Алекса, относящегося к бухгалтерии его зятя. Ни одно из чисел, обозначавших выручку от продаж, не начиналось с цифр, лежащих в диапазоне от 2 до 7. При этом лишь 4 числа начинались с восьмерки, а 21 – с девятки. Проверив еще кое-что, Нигрини уже не сомневался: зять Алекса – мошенник, систематически подделывающий финансовую отчетность, дабы избежать нежелательного внимания банковских менеджеров и налоговых инспекторов.
Попытка была вполне убедительная. На первый взгляд, сведения о продажах не показывали ничего слишком уж подозрительного: в них не просматривалось никаких внезапных взлетов или падений, которые обычно привлекают взор контролирующих инстанций. Но в том-то и дело: они оказались чересчур гладкими, а потому и стали жертвой математического ритуала, порученного Алексу профессором.
Нигрини знал (а зять Алекса, очевидно, нет), что цифры, из которых слагаются данные о выручке магазина, должны следовать математическому правилу, открытому больше века назад и названному законом Бенфорда. Этому закону подчиняется необычайно широкий диапазон явлений, от цен на фондовом рынке или данных переписи населения до теплоемкости химических веществ. Даже числовые величины, произвольно надерганные из газет, будут соответствовать требованиям этого закона, предписывающего, чтобы примерно 30 % чисел в выборке начинались с единицы, 18 % – с двойки… и так далее, вниз и вниз по размеру процентной доли, вплоть до 4,6 % для девятки.
Это настолько неожиданный закон, что поначалу многие даже отказываются верить в его справедливость. Не один год закон Бенфорда проходил по разряду математических курьезов. Однако сегодня его воспринимают всерьез самые разные специалисты – от бухгалтеров-криминалистов до разработчиков компьютеров. Все они полагают, что эта закономерность способна помочь им распутывать некоторые сложнейшие проблемы с ошеломляющей легкостью.
История открытия этого закона – такая же странная, как и он сам. В 1881 году американский астроном Саймон Ньюком отправил в American Journal of Mathematics заметку, где сообщал о необычной особенности справочников логарифмов, которую он обнаружил. (Таблицы логарифмов в те времена широко использовались учеными при вычислениях.) Первые страницы таких справочников, похоже, имели тенденцию пачкаться гораздо быстрее, чем все последующие.
Напрашивалось озадачивающее объяснение: по неизвестным причинам люди гораздо чаще делают расчеты для чисел, начинающихся с единицы, чем для чисел, которые начинаются с восьмерки или девятки. Ньюком даже предложил формулу, неплохо описывающую такую разницу: похоже, природе нравится устраивать так, чтобы доля чисел, начинающихся с цифры, которую он обозначил как D, равнялась десятичному логарифму от 1 + (1/D) (см. «Здесь, там и везде»).
Впрочем, Ньюком не привел никаких особенно убедительных доводов в пользу того, почему его формула должна работать, поэтому заметка не вызвала такого уж интереса. Эффект Засаленных Страниц забыли более чем на полвека. Но в 1938 году физик Фрэнк Бенфорд, сотрудничавший с американской компанией General Electric, заново открыл тот же эффект и вывел ту же закономерность, что и Ньюком. Однако Бенфорд пошел гораздо дальше. Используя более чем 20 тысяч чисел (извлеченных отовсюду – от таблиц площади речных бассейнов до чисел, встречающихся в старых журнальных статьях), Бенфорд показал, что все они подчиняются следующему основному закону:
примерно 30 % этих чисел начинается с единицы, 18 % – с двойки и т. п.
Бенфорд, как и Ньюком, не нашел никакого достойного объяснения закона. Но сам гигантский объем данных, которые Бенфорд представил для демонстрации справедливости и вездесущности закона, привел к тому, что его имя с тех пор всегда ассоциируется с этим правилом.
В течение еще примерно четверти века никто не мог дать удовлетворительный ответ на главный вопрос: почему, скажите на милость, этому закону должно подчиняться такое гигантское количество всевозможных источников чисел? Первый большой шаг вперед удалось сделать в 1961 году. Роджер Пинкхем, математик, работавший тогда в Ратгерском университете (Нью-Брансуик, штат Нью-Джерси), подошел к делу обходным путем, хотя и не без изящества. Он рассуждал так. Предположим, действительно существует некий универсальный закон, которому подчиняются цифры в числах, описывающих природные явления и объекты (площадь бассейнов рек, свойства веществ и т. п.). Тогда такой закон должен работать независимо от используемых единиц измерения. Иными словами, даже обитатели планеты Зоуб, измеряющие площадь в грондеках, должны обнаружить точно такое же распределение цифр в данных о бассейнах рек, как и мы, скромно пользующиеся гектарами. Но как такое возможно, если в одном гектаре 87,331 грондека?
А значит, говорит Пинкхем, следует добиться, чтобы на распределение цифр не влиял выбор единиц измерения. Допустим, вам известна выраженная в гектарах площадь бассейна для миллиона рек. Конечно, перевод каждого из этих значений в грондеки изменит каждое отдельное число. Но в целом характер распределения этих чисел не изменится. Это свойство называют инвариантностью по отношению к изменениям масштаба.
Пинкхем математически доказал, что закон Бенфорда действительно обладает инвариантностью по отношению к используемой шкале измерения. Но важнее всего то, что он также продемонстрировал: закон Бенфорда – единственный метод распределения цифр, обладающий таким свойством. Иными словами, любой закон, описывающий частоту встречаемости цифр и претендующий на универсальность, просто обязан оказаться законом Бенфорда.
Работа Пинкхема вызвала бурный рост доверия к закону, побудив и других ученых отнестись к нему серьезно и придумывать возможные сферы его применения. Впрочем, оставался ключевой вопрос: какого рода числа будут следовать закону Бенфорда? Довольно быстро обнаружились два ориентировочных правила. Прежде всего, выборка чисел должна быть достаточно большой, чтобы предсказанные пропорции могли в ней по-настоящему проявиться. Кроме того, числа должны быть свободны от искусственных ограничений: им нужно позволить принимать, в сущности, любое значение, какое им заблагорассудится. К примеру, совершенно бесполезно ожидать, что цены на 10 разных сортов пива будут отвечать закону Бенфорда. Мало того, что выборка чересчур мала: важнее то, что под действием рыночных сил цены вынуждены оставаться в рамках узкого, фиксированного диапазона.
С другой стороны, истинные случайные числа тоже не будут подчиняться закону Бенфорда: все первые цифры таких чисел будут по определению представлены в равных долях (при достаточно большой выборке). Закон Бенфорда относится к числам, занимающим «промежуточное положение» – между жестко ограниченными и совершенно необузданными.
Что же это, собственно, означает? Подробности оставались тайной вплоть до 1996 года, когда математик Теодор Хилл из Технологического института штата Джорджия (Атланта) сумел еще больше углубиться в истоки закона Бенфорда. Он понял, что закон обусловлен многообразием путей, какими задаются ограничения и закономерности для результатов различных видов измерений. В конечном счете все, что мы способны измерить, является результатом того или иного процесса: например, случайных скачков атомов или генетических актов. Математикам давно известно, что разброс значений для каждого такого процесса следует тому или иному базовому математическому правилу. К примеру, данные о росте банковских менеджеров отлично укладываются на колоколообразную кривую (гауссиану), среднесуточные температуры воздуха растут и падают волнообразно, а силу и частоту землетрясений связывает логарифмическая зависимость.
А теперь представьте, что вы произвольным образом выхватываете охапки данных из кучи всевозможных распределений такого рода. Хилл доказал: чем больше таких чисел вы будете выхватывать, тем ближе цифры этих чисел будут соответствовать одному весьма специфическому закону. Речь идет о законе распределения распределений, то есть о некоем «универсальном распределении». Его математическая форма представляет собой, как показал Хилл… все тот же закон Бенфорда.
Теорема Хилла детально объясняет поразительную вездесущность закона Бенфорда. Ну да, числа, описывающие некоторые явления, находятся под контролем какого-то одного распределения (скажем, той же гауссианы). Но гораздо больше таких, чье поведение определяется случайной смесью всевозможных распределений. Подобные числа описывают самые разные вещи – от данных переписи населения до цен на акции. Если теорема Хилла верна, это означает, что цифры в этих данных обязаны следовать закону Бенфорда. И, как показывает грандиозное исследование самого Бенфорда (и изыскания многих его последователей), так действительно и происходит.
Марк Нигрини, бывший научный руководитель Алекса, а ныне – профессор бухгалтерского дела в Колледже Новой Англии в Юинге, рассматривает теорему Хилла как важнейший научный прорыв: «Она… помогает объяснить, почему феномен постоянства доли значимых цифр проявляется в столь многих контекстах».
Она также помогает Нигрини убеждать других в том, что закон Бенфорда – не математическая шалость, а нечто гораздо большее. В последние годы Нигрини стал лидером в отнюдь не легкомысленном применении этого закона – в обнаружении подлогов.
В своей докторской диссертации, опубликованной в 1992 году и вызвавшей настоящую революцию в криминалистике, Нигрини показал, что многие важнейшие характеристики финансовой отчетности, от показателей выручки до декларируемых расходов, подчиняются закону Бенфорда, причем отклонения от этого закона можно быстро обнаружить, применяя стандартные статистические процедуры. Нигрини обтекаемо называет методику такого вскрытия мошеннических схем «цифровым анализом». Успехи применения этой методики сегодня привлекают внимание не только воротил в мире бизнеса.
Среди первых примеров ее использования – студенческие проекты, которыми руководил Нигрини (вспомним сомнительную практику зятя Алекса, владельца магазина бытовых товаров). Но вскоре профессор стал использовать цифровой анализ для разоблачения куда более масштабных обманов. Одно такое дело касалось американской туристической компании с сетью гостиниц по всему миру. С помощью цифрового анализа руководитель службы внутреннего аудита компании выявил нечто странное в финансовой отчетности инспектора департамента здравоохранения фирмы. «Первые две цифры всех выплат по медицинской страховке проверялись на соответствие закону Бенфорда. Обнаружилась необычно большая доля чисел, начинающихся с 65, – рассказывает Нигрини. – Аудит выявил 13 поддельных чеков на различные суммы в интервале между 6500 и 6599 долларов… связанных с никогда не проводившимися в действительности операциями на сердце, выплаты по которым якобы осуществляла инспектор, а на самом деле каждый такой чек оказывался в ее руках».
Закон Бенфорда позволил изобличить ловкую инспектрису – несмотря на ее немалые усилия придать заявкам о выплате страховых сумм видимость достоверности. «Она представляла фальшивые заявки лишь от имени сотрудников тех мотелей, где доля пожилого персонала была выше средней, – рассказывает Нигрини. – Этот анализ вскрыл также и другие поддельные заявки. Общая сумма составила около миллиона долларов».
Неудивительно, что и крупные корпорации, и органы власти теперь относятся к закону Бенфорда серьезно. «Цифровой анализ применяют сейчас в США и Европе компании, акции которых котируются на основном рынке, и просто большие частные корпорации, и небольшие специализированные фирмы, и правительственные структуры, и одна из самых крупных аудиторских компаний в мире», – радуется Нигрини.
Методикой интересуются и те, кто выслеживает другие виды мошенничества. Например, Марк Буйс и его коллеги по Брюссельскому фармацевтическому институту полагают, что закон Бенфорда способен выявить сомнительные данные клинических испытаний. А некоторые университетские преподаватели считают, что цифровой анализ поможет обнаруживать подлог в лабораторных журналах студентов.
Конечно же, все более широкое применение цифрового анализа неизбежно приведет к тому, что и мошенники будут лучше понимать силу закона Бенфорда. Однако, по словам Нигрини, это понимание им не очень-то поможет, разве что предостережет: «Для преступников проблема в том, что они понятия не имеют, как будет выглядеть общая картина, пока не поступят все данные, которые в нее входят, – подчеркивает Нигрини. – В подделке обычно используется лишь часть полного набора данных, но мошенники не знают, как этот набор потом будут анализировать – по кварталам, по департаментам, по регионам. Добиться, чтобы подделка всегда соответствовала закону Бенфорда, при таких условиях чрезвычайно трудно, а ведь большинство жуликов и без того не блещут интеллектом».
Так или иначе, подчеркивает Нигрини, область применения закона Бенфорда вовсе не ограничивается ловлей мошенников. Взять хотя бы хранение информации. Математик Петер Шатте из Фрайбергской горной академии предложил оптимизировать запись компьютерных данных, распределяя области для хранения в пропорциях, продиктованных законом Бенфорда.
По мнению Хилла (того самого, из Технологического института Джорджии), широкая применимость закона Бенфорда могла бы также оказаться полезной для финансовых и демографических прогнозов. И финансистам, и демографам иногда нужно «сверять с реальностью» свои математические модели, а закон Бенфорда позволяет осуществлять такую сверку относительно просто. «Нигрини показал недавно: численность населения более чем трех тысяч американских округов почти соответствует закону Бенфорда, – говорит Хилл. – А значит, не исключено, что закон может стать основой методов проверки разных моделей, которые дают прогноз грядущей численности населения. Если предсказанные величины далеки от бенфордовского соотношения, модель придется пересмотреть».
И Нигрини, и Хилл подчеркивают: закон Бенфорда – не панацея, которая позволит избавить мир от мошенников и потерь данных. Отклонения от прогнозов, сделанных согласно этому закону, могут быть вызваны совершенно невинными вещами: к примеру, тем, что кто-то округляет числа в большую или в меньшую сторону. Оба ученых готовы признать, что неосмотрительное применение закона в реальных жизненных ситуациях вполне может приводить к путанице и неразберихе. Хилл добавляет: «Всякую математическую теорему, всякий статистический тест можно использовать неправильно. Это меня не беспокоит».
Впрочем, оба предчувствуют: в будущем человечество наверняка придумает, где можно использовать закон Бенфорда по-настоящему разумно. Хилл говорит: «Для меня этот закон – ярчайший пример математической идеи, которая стала сюрпризом для всех, даже для специалистов».
Примечание. Алекс – не настоящее имя бывшего студента, учившегося у Нигрини.
Здесь, там и везде
Особое пристрастие природы к определенным числам и числовым последовательностям с давних пор восхищает математиков. Так называемое «золотое сечение», соотношение, примерно равное 1,62:1 (и, как многие полагают, позволяющее строить наиболее изящные прямоугольники), обнаруживают таящимся в самых разных местах, от морских ракушек до морских узлов. Или возьмем ряд Фибоначчи: 1, 1, 2, 3, 5, 8… (каждое новое число, начиная с третьего, является суммой двух предыдущих). Эта последовательность встречается в природе буквально повсюду, характеризуя и распределение листьев на стеблях, и спиральный узор семян в головке подсолнуха, и многое, многое другое.
По-видимому, закон Бенфорда – еще одно такое фундаментальное свойство математической вселенной. Согласно этому закону, процентная доля чисел, которые начинаются с цифры, обозначаемой нами как D, составляет 100 × log10(1 + (1/D)). Таким образом, около 30 % чисел будут начинаться с единицы, 17,6 % чисел – с двойки… и так вплоть до девятки, с которой начинается 4,6 % чисел. (Напомним, этому закону подчиняются не всякие выборки чисел.)
Но математика закона Бенфорда позволяет предсказать и встречаемость всех прочих цифр, а не только первых. К примеру, этот закон предсказывает, что ноль будет наиболее вероятной второй цифрой (его доля – примерно 12 % среди всех вторых цифр), тогда как девятка – наименее вероятная вторая цифра (ее доля – около 8,5 %).
Таким образом, из закона Бенфорда следует, что наиболее частые неслучайные числа будут начинаться с 10. Они будут встречаться нам почти вдесятеро чаще, чем те, что начинаются с наименее вероятного сочетания – 99.
Как нетрудно догадаться, закон Бенфорда предсказывает, что доли единиц, двоек, троек и т. д. по мере продвижения вправо (то есть по мере увеличения «номера» цифры) будут все сильнее сглаживаться, стремясь к 10-процентной доле для последней значимой цифры каждого большого числа.
Еще один забавный поворот: оказывается, ряд Фибоначчи, золотое сечение и закон Бенфорда взаимосвязаны. Отношение двух последовательных чисел Фибоначчи стремится к золотому сечению, а цифры всех чисел в ряду Фибоначчи стремятся к ситуации, когда они подчинены закону Бенфорда.
Назад: Я, алгоритм
Дальше: Давайте потеряемся