Исследование вероятности в том виде, каким мы видим это сегодня, началось лишь в семнадцатом веке, однако изучение комбинаций и перестановки объектов или событий имеет более длинную историю. Огромный интерес к ним был в Индии, особенно у джайнских математиков, работавших в IV веке до нашей эры. Джайнов вдохновляла религия, но большинство более поздних авторов стремилось изучить эти процессы для того, чтобы провести анализ азартных игр — предсказать возможные результаты и вывести правила, которые сделают игру совершенно честной. Поскольку вероятность стала тесно переплетаться со статистикой, появились новые методы анализа данных как в естественных, так и в общественных науках. Хотя эта наука никогда не покидала игорные столы, статистика в эпоху Просвещения стала математическим способом проведения государственной политики и гарантировать моральную и социальную справедливость.
Джайнизм появился в Индии почти одновременно с буддизмом, и его математическая литература относится к третьему или четвертому векам до нашей эры. Джайны выказали особый интерес к работе с числами и к средствам для того, чтобы выразить очень большие количества. Они обсуждали различные типы бесконечных чисел и методы их получения, а также различные способы комбинирования бесконечного числа объектов. Они занимались этими исследованиями, изучая различные способы сочетать пять чувств. Интерес к перестановкам можно увидеть также в ведической литературе — там это выражалось в способах объединения слогов в поэтические произведения и молитвы. В Майсуре в девятом веке джайнский математик Махавир (ок. 850) создал ставшие теперь стандартными правила комбинаций и перестановок.
Исследование комбинаций и перестановок теперь называется комбинаторикой. Космологическое и мистическое использование законов комбинаторики можно увидеть в трудах каталонского философа и мистика тринадцатого века Раймунда Луллия (1232 — ок. 1316), но, похоже, они прошли незамеченными для большинства математиков. Стимулом для изучения комбинаторики стала вполне мирская озабоченность азартной игрой. В «Божественной комедии» Данте упоминается «азартная игра», в которую играют с тремя костями. Один игрок бросает кости, а другой должен сделать предположение относительно их суммы. В поэме тринадцатого века «De vetula», написанной поэтом, известным как псевдо-Овидий, перечисляются 56 различных способов, которыми могут выпасть кости. Обе работы породили различные комментарии относительно математических правил игры. «Предыстория» этого предмета, вероятно, заканчивается трудом Кардано «Книга об игре в кости», изданным после его смерти в 1663 году, но написанным на сотню лет раньше, в котором описывается, как установить правильные ставки и в игре в кости, и в карточных играх.
Теория вероятности достигла нового уровня сложности в переписке 1654 года между Блезом Паскалем и Пьером де Ферма. Они обсуждали так называемую проблему очков игрока, которая касается разделения выигрыша между двумя игроками, когда игру в кости приходится оставить незаконченной. Этой проблемой занимались многие итальянские математики эпохи Ренессанса, включая Пачоли, Кардано и Тарталью, но ни один из них не добился окончательного решения. Ферма предпочел метод, основанный на составлении списка всех возможных результатов и вычислении абсолютного победителя в каждой игре. Вычисления становятся весьма длинными, поскольку число игр увеличивается, и Паскаль предпочитает метод математического ожидания. В своем «Трактате об арифметическом треугольнике» он объяснял отношения между числами в треугольнике Паскаля и о необходимых комбинациях. Каждый ряд треугольника дает коэффициенты биномиального разложения: третий ряд, например, дает числа 1, 3, 3, 1, которые служат коэффициентами разложения (а+ b)3 = а3 + 3a2b + 3ab2 + b3. Число 3 во втором элементе показывает, что есть три комбинации, дающие а2b, то есть aab, аbа и bаа. Используя соответствующий ряд в треугольнике Паскаля, можно таким образом быстро решить задачу разделения выигрыша. Если игроку А нужно две игры для того, чтобы выиграть, в то время как игроку В для этого нужно три игры, то один из игроков должен победить по крайней мере в четырех играх. Из ряда 1, 4, 6, 4, 1 в треугольнике Паскаля, выигрыш должен быть разделен в соотношении (1+4+6): (4+1) или 11:5.
Эти проблемы обычно обсуждались в терминах дробей, а не вероятностей. Первое теоретическое обсуждение вероятностей, лежащих в промежутке между 0 и 1, мы находим в трактате «Искусство предположений» Якоба Бернулли, изданном в 1713 году уже после его смерти. Он также указал, что вероятности можно оценить по частоте выпадения события, и попытался установить верхний предел числа испытаний, после которого можно быть «нравственно уверенным» в оценке вероятностей. К сожалению, такое строгое условие приводило к очень высоким значениям числа необходимых испытаний: например, чтобы быть на 99,9 % уверенным относительно правильного соотношения числа шаров разного цвета в коробке, потребовалось бы 25.500 испытаний. Эта процедура была уточнена Абрахамом де Муавром (1667–1754), который правильно оценил нормальное распределение как предел двучлена и получил более разумное число испытаний, позволяющих экспериментально приблизиться к истинным значениям вероятности. Де Муавр также многократно переиздавал свой труд «Страхование жизни», в котором эти открытия были применены к оценке страхования жизни и вычислению ренты. Стимул для того, чтобы применить вероятностные методы к демографическим данным, появился совершенно неожиданно. И здесь нам снова придется обратить взор к небесам.
Астрономам, пытавшимся определить точные орбиты планет, приходилось полагаться на результаты ряда наблюдений, в каждом из которых имелась небольшая ошибка. Таким образом, каждое измерение могло привести к немного иному уравнению орбиты планеты, и было неясно, какой метод следует использовать, чтобы гарантировать, что взятый набор данных позволит вычислить самую точную орбиту. И Кеплер, и Галилей боролись с этими ошибками наблюдения. Основной идеей было найти кривую, которая минимизировала бы общее число ошибок, и в 1805 году эта задача была решена Лежандром в его «Новых методах определения орбит комет» методом наименьших квадратов. В этой работе было приведено понятное обоснование и дан удобный обобщенный метод. В 1809 году Гаусс публикует свой метод в трактате «Теория движения небесных тел», утверждая, что использует его уже с 1795 года, и тем самым оспаривая приоритет Лежандра. Действительно, похоже, что уже в 1801 году Гаусс использовал именно этот метод для вычисления пути движения недавно обнаруженного астероида Церера на основании всего нескольких неоднородных данных наблюдений, сделанных ранее в том же году. Он также показал, что распределение ошибок происходило по тому, что сегодня называют гауссианой или нормальной кривой, и обобщало более ранний результат де Муавра. Обоснование метода Гаусса заключалось в том, что это распределение делало среднее значение наблюдений наиболее вероятным. Затем Лаплас уточнил методику расчета: каким бы ни было распределение ошибок отдельных замеров, их средние значения стремились к нормальному распределению. Он также показал, что оценки наименьших квадратов Лежандра будут также стремиться к тому же самому распределению. Астрономы быстро признали ценность предложенного метода, тем более что было известно — ошибки астрономических наблюдений были неизбежными. К ним приводила не просто недостаточная точность измерительных инструментов, но и искажение пути движения света, идущего от звезд и попадающего в очаги турбулентности в атмосфере. В 1812 году Лаплас издал свой великий трактат «Аналитическая теория вероятности», в котором синтезировал все события в математике, происходившие до этого момента. Эта книга оставалась для многих поколений ученых главным текстом по математике.
В социальном контексте теория вероятности считалась «исчислением рационального поведения». В 1814 году Лаплас сказал, что вероятность — это просто здравый смысл, преобразованный в вычисления. Математики эпохи Просвещения полагали, что просвещенные люди действуют рационально и вероятность дает обычным людям измеримый образец, с помощью которого они могли бы, по крайней мере, подражать здравому смыслу лучших представителей общества. Целью ученых было создание универсального стандарта человеческого поведения, а исследование азартных игр было просто способом найти инструменты для того, чтобы принимать рациональные решения в мире, полном неопределенностей. Например, Лаплас и другие ученые рассматривали вероятность того, что суд с определенным количеством присяжных вынесет несправедливый приговор. Но другие мыслители были совершенно не согласны с рационалистическим духом французской революции. Джон Стюарт Милль считал, что разумное решение лучше определяется путем наблюдения и эксперимента, а не посредством умозрительных вероятностных предположений.
Адольф Кетле (1796–1874), бельгийский математик и астроном, выявил связь между статистикой, стоявшей на службе у астрономии, и социальной статистикой. В основе его идеи о «среднем человеке» лежала формула нормального распределения. Так же, как отдельные несовершенные данные о наблюдениях за звездой группировались вокруг ее истинного положения, так и свойства реальных людей распределялись вокруг «среднего значения». Таким образом, отклонение от этой «теоретической нормы» считалось своего рода ошибкой измерения. Он считал государственно важным делом собрать и проанализировать демографические данные так, чтобы «социальный физик» мог раскрыть социальные законы, аналогичные физическим законам. Он объяснял свои теории тем, что показатели рождений, смертей, преступлений и браков, похоже, оставались неизменными из года в год, хотя в разных странах эти цифры могли различаться между собой, таким образом оправдывая предположение, что каждое социальное тело имеет устойчивую, но несколько отличную от других «социальную физику».
Такие социальные данные начали собирать в семнадцатом веке и продолжают делать это до сих пор. В 1662 году Джон Граунт издал свои «Природные и политические наблюдения», основанные на статистическом анализе лондонских «Отчетов о смертности населения», которые печатались еженедельно и использовались как барометр, чтобы предупреждать людей о возможном начале эпидемии и дать им возможность покинуть город. В 1693 году астроном Эдмонд Галлей издал «таблица продолжительности жизни», основанные на отчетах о смертности жителей города Бреслау, данные которого были более точными, чем те, к которым имел доступ Граунт. Галлей также смог показать, что правительство того времени слишком дешево продает ежегодную пожизненную ренту. Математическая статистика конца девятнадцатого века может считаться новой ветвью математики, которая соединила статистические методы астрономов и приемы сбора данных страховщиков.
Вряд ли мне известно что-либо, способное столь сильно поразить воображение, как удивительная форма космического порядка, выраженная «Законом частоты появления ошибок». Если бы греки знали его, они наверняка связали бы его с каким-нибудь божеством. Этот закон действует в полнейшем хаосе, сохраняя абсолютное спокойствие и до поры оставаясь в тени. Чем буйнее толпа, чем очевиднее проявляется анархия, тем более заметно его влияние. Это — высший закон безумия. Всякий раз, когда большая выборка хаотически разбросанных элементов выстроена в порядке их величины, оказывается, что в них скрыта самая прекрасная форма регулярности, о которой никто и подозревать не мог.
Фрэнсис Гальтон (1822–1911), кузен Чарльза Дарвина, разработал биометрические принципы. Он использовал статистические методы для анализа социальных данных и наследственных свойств. Главной целью так называемого движения евгеники было улучшить человеческий вид при помощи селективного размножения, а статистика использовалась для обеспечения количественного представления пути развития человечества и способа определения направления его усовершенствования. Гальтон применил нормальное распределение не как «кривую ошибок», но как меру изменения, поняв на основании теории эволюции Дарвина с помощью естественного отбора, что биологическая изменчивость нуждалась в анализе сама по себе, а не как эволюционная ошибка относительно некоторой идеализированной «нормы».
Именно Гальтон ввел понятия регресса и корреляции. Статистическое понятие регресса возникло из исследования душистого горошка. Гальтон разделил партию семян на семь групп согласно размеру семени. Семена получающегося потомства показали ту же самую изменчивость, или разницу в размере, соответственно группам. Средний размер семени всей партии оставался постоянным, но значения размера отдельных групп далеко ушли от своей родительской группы в сторону этого среднего значения — математического ожидания группы. Таким образом, значения «регрессировали» в направлении среднего значения по совокупности. В 1885 году Гальтон обнаружил явление регресса и разобрался в нем, а в 1889 году он ввел связанную с этим понятием идею корреляции. Измеряя две взаимосвязанные переменные и отображая эти значения в виде графика, Гальтон обнаружил единую безразмерную величину, которая служила коэффициентом взаимосвязанности между этими двумя переменными. Этот коэффициент корреляции варьировался между +1 — идеальная положительная корреляция — до -1 — идеальная отрицательная корреляция. Когда этот коэффициент приближался к нулю, это означало, что между переменными нет никакой корреляции. Сам по себе коэффициент корреляции не мог доказать никакой причинной связи между переменными, но мог оправдать дальнейшие эксперименты, которые позволили бы обнаружить эту связь.
Гальтон занимался изучением наследования непрерывного изменения, в то время как Мендель изучал дискретное изменение, хотя ни один из них не знал ничего о работе другого. Грегор Мендель обучался математике и физике. В статье 1865 года он написал о возможном существовании генов, и в 1900 году на эту статью обратили внимание сторонники биометрии. Она привела к серьезной полемике, верные дарвинисты и сторонники биометрического движения по большей части отвергали понятие генетического материала. Пирсон считал эту идею излишне метафизической и не мог понять, как дискретный объект может демонстрировать непрерывные свойства. Вопрос не был решен до тех пор, пока в 1918 году Фишер не показал, что при достаточно большом числе генов в модели Менделя возникнут корреляции, изученные сторонниками биометрии. Это было похоже на дискретное биномиальное распределение, стремящееся к нормальному распределению при увеличивающемся числе испытаний.
Философские аргументы находятся за пределами наших возможностей, но важно подчеркнуть, что статистика развивалась не как независимая ветвь математики. Развитие статистики и инструментов аналитики было поставлено на службу социальным проблемам. В конце жизни Гальтон финансировал профессуру по евгенике (теперь «Генетика человека») в Лондонском университете. Первым профессором был Карл Пирсон (1857–1936), за которым следовал Роналд Эйлмер Фишер (1890–1962).
В 1901 году Пирсон и Гальтон основали журнал «Биометрика», который стал ведущим изданием в области статистики. На его страницах мы находим не только теорию регресса и корреляции Гальтона, но и критерий хи-квадрат Пирсона, разработанный им в 1900 году. Этот критерий позволил правильно оценить, насколько точно подходит теоретическое распределение к данным, к которым оно должно быть применено. В 1908 году B. C. Госсет, ученый-биолог, работавший на пивоваренных заводах Гиннесса в Дублине, ввел t-распределение для маленьких выборок. Он написал статью под псевдонимом «Студент», и t-тест иногда упоминается как «студенческий тест». Большая часть работ Пирсона потерялась в тени более поздних трудов Фишера, который разработал дисперсионный анализ — технику, первоначальным предназначением которой было проверять значение данных экспериментов. Поначалу он применялся для обработки данных случайных групп экспериментов, вроде тех, которые используются в сельском хозяйстве для проверки удобрений. Этот метод математически отделяет любой реальный «эффект» от любой случайной «ошибки». Если какой-то эксперимент показывает реальный эффект, то математический метод выявит интенсивность этого эффекта относительно ошибки.
В 1920-х годах статистика стала считаться математиками вполне законным предметом исследования, поскольку она приводила к большей точности и позволяла уточнять применяемые методы. Фишер изложил идеи относительно плана экспериментов и дисперсионного анализа в своей книге «Проект экспериментов» (1936). Она оказала большое влияние на ученых Англии и США. Они радикально изменили практику проведения экспериментов в тех науках, где приходится иметь дело с изменчивым материалом, который невозможно абсолютно точно повторить в лабораторных условиях.