Книга: Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Назад: Правильный шаг Райтов
Дальше: Единая теория величия

Слава как болезнь

Начав изучать славу с помощью данных n-грамов, мы быстро поняли, что каждая история отличалась от других. Мы попытались найти общие закономерности, однако результаты оказывались довольно противоречивыми и не поддающимися объяснению. По сути, мы просто застряли в бездонной яме с данными.

Чтобы понять, почему это произошло, нам нужно совершить путешествие во времени в 1930 год и попасть в небольшой норвежский городок под названием Кристиансанн. Живший там доктор по имени Кристиан Андворд пытался победить эпидемию, преследовавшую его пациентов и всю страну в целом. Андворд изучал туберкулез, от которого Норвегия страдала в невиданных для наших дней масштабах. К примеру, в норвежском городе Тронхейм более 1% детей, родившихся между 1887 и 1891 годами, умерло от туберкулеза на первом же году жизни. Туберкулез стал причиной смерти половины детей в возрасте между 11 и 15 годами.

При этом стала заметной довольно примечательная тенденция. От десятилетия к десятилетию средний возраст жертв туберкулеза в Норвегии увеличивался. В чем же была причина?

У Андворда (или, по другой версии, у работавшей с ним медсестры) возникла идея. Вместо того чтобы изучать протекание болезни по всей совокупности населения, он разбил его на «когорты», то есть группы людей, родившихся примерно в одно время. Преимущество этого подхода состояло в том, что, учитывая год рождения, Андворду легче было отсекать различные вводящие в заблуждение факторы, такие как голод, от которого могло страдать лишь одно поколение детей. Основной недостаток этого подхода состоял в том, что он требовал значительно большего объема данных, чем те, которые можно было собрать в небольшом городке Кристиансанн.

Андворд, как и Ципф, отправился на поиски данных. К счастью для него и всей истории медицины, норвежское правительство прилагало серьезные усилия для ведения статистики по смертности. Андворд смог получить правительственные данные, охватывавшие период с 1896 по 1927 годы. Он дополнил результаты по Норвегии массивами данных из Англии, Уэльса, Дании и Швеции. Вооружившись всей этой информацией, Андворд стал задавать простые вопросы, волновавшие его прежде, и получать на них ответы. Например, в каком возрасте чаще умирали от туберкулеза люди, родившиеся в 1900 году (когорта 1900 года)? Как это соотносилось с данными когорты 1910 или 1920 года?

Полученные им ответы поражали. Судя по ним, жертвы заболевания могли (вне зависимости от своего года рождения) столкнуться с туберкулезом в возрасте между 5 и 14 годами или в период от 20 до 24 лет. Проведенный Андвордом анализ когорт показал, что туберкулез – это прежде всего болезнь молодых.

Но почему же, если взглянуть на все население, средний возраст жертв туберкулеза увеличивался? Ответ на этот вопрос был получен после того, как Андворд изучил общие данные по заболеваниям – точнее, вероятность того, что член определенной когорты (молодой или старый) в какой-то момент своей жизни умрет от туберкулеза. Когда Андворд принялся изучать все более молодые когорты, он обнаружил, что количество смертельных случаев стабильно уменьшалось. Норвежцы, рожденные в 1920 году, имели меньше шансов столкнуться с туберкулезом в течение своей жизни, чем норвежцы, родившиеся в 1910-м (у которых, в свою очередь, было меньше шансов заболеть, чем у норвежцев, родившихся в 1900 году, и так далее).

Это открытие заставило его взглянуть на возраст по-новому. Дело было не в том, что болезнь распространилась на людей старшего возраста. Андворд сделал вывод о том, что люди, родившиеся раньше, были более уязвимы к заболеванию туберкулезом в течение своей жизни. Немедленным последствием его выводов стала настоящая медицинская «бомба» – молодые норвежцы все лучше противостояли туберкулезу от поколения к поколению. По сути, эпидемия действовала, как убийственная, но очень эффективная кампания по вакцинации. Хотя вывод Андворда был неожиданным и поразительным, он оказался при этом совершенно верным. Но его наследие не ограничилось этим. Метод исследования когорт Андворда превратился в важнейший научный инструмент в области эпидемиологии и общественного здоровья. Идеи Андворда успешно срабатывают каждый раз, когда у нас появляется возможность изучить обширные массивы данных, касающихся состояния здоровья общества. Благодаря Андворду (или, возможно, его медсестре) мы узнали о связи между высоким кровяным давлением и сердечно-сосудистыми заболеваниями, курением и раком легких, уровнем сахара в крови и диабетом, а также о десятках тысяч других корреляций, заставляющих нас испытывать чувство вины при любом нарушении режима питания.

Подобно исследованиям туберкулеза, исследования славы пронизаны массой фактов и идей, связанных с различиями между поколениями. Например, изобретение Интернета оказало огромное влияние на то, как люди становятся знаменитыми. В нашем изначальном исследовании подобные факторы практически не позволяли увидеть, что же происходит на самом деле.

Наконец мы сделали то, что сделал бы любой хороший ученый, ищущий данные. Мы спросили себя: WWAD (What Would Andvord Do – «Что бы сделал Андворд»)? Внезапно нам стало понятно – мы должны использовать метод когорт, то есть относиться к славе как к болезни.

Зал славы

В то время мы только что познакомились с Адрианом Вересом. Этот по-настоящему талантливый старшекурсник кое-что знал о мировой славе – он получил первый приз на международной научной и инженерной выставке, проводившейся при поддержке компании Intel, после чего в его честь была названа одна малая планета (921758 Adrianveres).

Работая с Адрианом, мы занялись созданием когорт, состоявших из представителей каждого поколения, серьезно прославившихся, – людей уровня Марка Твена, Ганди или Рузвельта. Мы решили заняться изучением людей, рожденных в промежутке между 1800 и 1950 годами. Взяв более ранний период, мы столкнулись бы с ситуацией низкого качества данных. А взяв более поздний период, мы не смогли бы отслеживать славу в течение достаточно длительного времени – зачастую человек, рожденный в 1950 году, становился знаменитым лишь в 80-е или даже 90-е, так что у нас было бы слишком мало данных для анализа по годам. Адриан проанализировал данные сотен тысяч людей, изучая частоту упоминания их полных имен (к примеру, «Марк Твен»). Для каждого года за период между 1800 и 1950 годами он составил список из пятидесяти самых знаменитых людей, родившихся в том же году. Это была крайне впечатляющая работа с учетом того, что на родной планете Адриану исполнилось всего шесть лет. Если приравнять известность к болезни, то списки Адриана содержали 7500 наиболее пострадавших жертв недуга.

Группы представляли собой крайне интересную выборку людей, шедших к славе совершенно разными путями. Возьмем, к примеру, когорту или класс 1871 года. Пятьдесят самых знаменитых людей, родившихся в 1871 году, включали в себя Орвилла Райта, нашего вдохновителя, ставшего знаменитым после того, как научился летать. Эрнест Резерфорд стал знаменитым за свои выдающиеся научные эксперименты, доказавшие существование атомного ядра. А Марсель Пруст стал знаменитым благодаря своему писательскому таланту.

Чемпионом класса 1871 года – то есть самым знаменитым человеком, родившимся в 1871 году, – был Корделл Халл. Никогда не слышали этого имени? В наши дни он почти неизвестен, однако в дни своей славы Халл считался поистине титанической фигурой. Этот сенатор США со временем стал госсекретарем и прослужил на этом посту дольше, чем кто-либо другой. Его 11 лет работы с президентом Франклином Делано Рузвельтом совпали, помимо прочего, с годами Второй мировой войны. Халл играл огромную роль в создании ООН и получил за свои усилия Нобелевскую премию мира. Рузвельт называл Халла «отцом Организации Объединенных Наций». Да, у этого класса был по-настоящему крупный чемпион.

Практически в каждом классе можно встретить примеры потрясающих биографий. Так, в класс 1904 года входят чилийский поэт Пабло Неруда, художник-сюрреалист Сальвадор Дали и Роберт Оппенгеймер, лидер «Манхэттенского проекта», создавшего первую атомную бомбу. Его чемпион – китайский лидер Дэн Сяопин. Чемпионом 1899 года был Эрнест Хэмингуэй; но кроме него в классе были аргентинский писатель Хорхе Луис Борхес, актеры Фред Астер и Хамфри Богарт, легендарный режиссер Альфред Хичкок и гангстер Аль Капоне. Думается, что вы бы вряд ли отказались от предложения пойти на званый ужин с представителями этого класса.





В списке ниже перечислено 150 чемпионов. Давайте посмотрим, много ли имен вы сможете узнать. Это можно считать самым объективным тестом по истории, какой только бывает. Имена в списке никак не отражают ни нашего мнения о том, кого вы должны знать, ни мнений преподавателей мировой истории или научных авторитетов. Вместо этого они отражают совокупное мнение всех, кто когда-либо писал книгу на английском языке, начиная с 1800 года.





1800 Джордж Бэнкрофт

1801 Бригам Янг

1802 Виктор Гюго

1803 Ральф Уолдо Эмерсон

1804 Жорж Санд

1805 Уильям Ллойд Гаррисон

1806 Джон Стюарт Милль

1807 Луи Агассис

1808 Наполеон III

1809 Авраам Линкольн

1810 Лев XIII

1811 Хорас Грили

1812 Чарльз Диккенс

1813 Генри Уорд Бичер

1814 Чарльз Рид

1815 Энтони Троллоп

1816 Расселл Сейдж

1817 Генри Дэвид Торо

1818 Карл Маркс

1819 Джордж Элиот

1820 Герберт Спенсер

1821 Мэри Бэйкер Эдди

1822 Мэттью Арнольд

1823 Голдвин Смит

1824 Стоунволл Джексон

1825 Бейярд Тейлор

1826 Уолтер Бэджет

1827 Чарльз Элиот Нортон

1828 Джордж Мередит

1829 Карл Шульц

1830 Эмили Дикинсон

1831 Сидящий Бык

1832 Лесли Стивен

1833 Эдвин Бут

1834 Уильям Моррис

1835 Марк Твен

1836 Брет Гарт

1837 Гровер Кливленд

1838 Джон Морли

1839 Генри Джордж

1840 Неистовый Конь

1841 Эдуард VII

1842 Альфред Маршалл

1843 Генри Джеймс

1844 Анатоль Франс

1845 Элиу Рут

1846 Буффало Билл

1847 Эллен Терри

1848 Грант Аллен

1849 Эдмунд Госсе

1850 Роберт Льюис Стивенсон

1851 Оливер Лодж

1852 Брэндер Мэттьюз

1853 Сесил Родс

1854 Оскар Уайльд

1855 Джосайя Ройс

1856 Вудро Вильсон

1857 Пий XI

1858 Теодор Рузвельт

1859 Джон Дьюи

1860 Джейн Аддамс

1861 Рабиндранат Тагор

1862 Эрвард Грей

1863 Дэвид Ллойд Джордж

1864 Макс Вебер

1865 Редьярд Киплинг

1866 Рамсей Макдональд

1867 Арнольд Беннетт

1868 Уильям Аллен Уайт

1869 Андре Жид

1870 Фрэнк Норрис

1871 Корделл Халл

1872 Шри Ауробиндо

1873 Эл Смит

1874 Уинстон Черчилль

1875 Томас Манн

1876 Пий XII

1877 Айседора Дункан

1878 Карл Сэндберг

1879 Альберт Эйнштейн

1880 Дуглас Макартур

1881 Пьер Тейяр де Шарден

1882 Вирджиния Вульф

1883 Уильям Карлос Уильямс

1884 Гарри Трумен

1885 Эзра Паунд

1886 Ван Вик Брукс

1887 Руперт Брук

1888 Джон Фостер Даллес

1889 Джавахарлал Неру

1890 Хо Ши Мин

1891 Ху Ши

1892 Рейнгольд Нибур

1893 Мао Цзэдун

1894 Олдос Хаксли

1895 Георг VI

1896 Джон Дос Пассос

1897 Уильям Фолкнер

1898 Гуннар Мюрдаль

1899 Эрнест Хэмингуэй

1900 Эдлай Стивенсон

1901 Маргарет Мид

1902 Толкотт Парсонс

1903 Джордж Оруэлл

1904 Дэн Сяопин

1905 Жан-Поль Сартр

1906 Ханна Арендт

1907 Лоренс Оливье

1908 Линдон Джонсон

1909 Барри Голдуотер

1910 Мать Тереза

1911 Рональд Рейган

1912 Милтон Фридман

1913 Ричард Никсон

1914 Дилан Томас

1915 Ролан Барт

1916 Чарльз Райт Миллс

1917 Индира Ганди

1918 Билли Грэм

1919 Дэниел Белл

1920 Ирвинг Хау

1921 Реймонд Уильямс

1922 Джордж Макговерн

1923 Генри Киссинджер

1924 Джимми Картер

1925 Роберт Кеннеди

1926 Фидель Кастро

1927 Габриэль Гарсия Маркес

1928 Че Гевара

1929 Мартин Лютер Кинг-мл.

1930 Жак Деррида

1931 Михаил Горбачев

1932 Сильвия Платт

1933 Сьюзан Зоннтаг

1934 Ральф Нейдер

1935 Элвис Пресли

1936 Кэрол Гиллиган

1937 Саддам Хусейн

1938 Энтони Гидденс

1939 Ли Харви Освальд

1940 Джон Леннон

1941 Боб Дилан

1942 Барбра Стрейзанд

1943 Терри Иглтон

1944 Раджив Ганди

1945 Даниэль Ортега

1946 Билл Клинтон

1947 Салман Рушди

1948 Кларенс Томас

1949 Наваз Шариф





Нам стало интересно, насколько хорошо сумеют узнать этих самых знаменитых людей прошлого, поэтому мы провели совершенно ненаучный опрос. Мы спросили об этом преподавателя истории в Гарварде, и он узнал 116 из 150. Знакомый нам студент-старшекурсник узнал 123; журналист – 103; недавний выпускник колледжа – 73; русский физик-теоретик – 58; студент-сингапурец младшего курса – 35.

И хотя люди сильно отличались по тому, чьи имена они узнавали, некоторые чемпионы, такие как чемпион 1868 года Уильям Аллен Уайт, влиятельный газетный редактор и важный деятель прогрессивного движения, или чемпион 1886 года Ван Вик Брукс (историк, лауреат Пулитцеровской премии и один из первых биографов Марка Твена), оказались не знакомыми никому. Вы еще помните, кто такой Корделл Халл? К сожалению, это имя вспомнил лишь преподаватель истории.

Тот факт, что мы узнаем не все из перечисленных имен, по-своему весьма примечателен. Изучая историю в школе, мы узнаем о тысячах личностей. Однако их список отражает выбор, мнение составителя учебника о том, кто важнее. К примеру, Дикинсон пошло на пользу принятое уже после ее смерти мнение литературных критиков о том, что ее труд заслуживает признания (несмотря на то, что в годы ее жизни так почти никто не считал). Мы наделяем людей, принимающих подобные решения, огромными полномочиями – правом формировать наше видение истории. И порой мы не до конца понимаем, как велика их власть.

С другой стороны, даже беглого взгляда на этот список достаточно, чтобы понять, что он вряд ли может быть основой для рассказов нашим детям о массе исторических событий. Из 150 чемпионов лишь 12 – это женщины; подавляющее большинство – это белые мужчины. У списка есть свои собственные глубокие искажения.

Кто в этом виноват? Вовсе не создатели списка. У него есть свои недостатки, но личная предвзятость точно к ним не относится. Мы всего лишь обработали цифры. Скорее, искажение, которое мы наблюдаем, связано с коллективной ответственностью подлинных авторов списка – всех, кто когда-либо написал книгу. Это – искажение исторического плана. И на каком-то уровне оно должно отражаться не только в нашем списке, но и во всех исторических исследованиях. Историки читают книги десятками, а мы – миллионами, но мы все делаем выборки из одной и той же огромной коллекции. Никто не обладает иммунитетом против ошибки выборки. У статистики, в отличие от истории, нет своих любимчиков.

Разумеется, в утверждении, что исторические данные сильно искажены, нет ничего нового. Но вот что помогают сделать данные n-грамов, так это проводить измерения этого искажения и понемногу показывать нам, в чем мы ошибались. А если мы будем знать о том, какие искажения были у нас прежде, то, возможно, не допустим тех же ошибок вновь.

Назад: Правильный шаг Райтов
Дальше: Единая теория величия