В книге пророка Самуила рассказывается, как царь Давид задался вопросом: сколько людей находится под его властью? Он распорядился провести перепись. Через девять месяцев он узнал результат – 1,3 миллиона боеспособных воинов. Однако подсчеты Давида разгневали Господа, и тот наслал на его землю чуму.
На протяжении тысяч лет люди, так или иначе напоминавшие Давида, пытались дать количественную оценку различным аспектам жизни общества. И это время от времени оказывалось крайне рискованным предприятием.
В этой книге мы показали, как цифровые исторические записи позволяют совершенно по-новому оценить наш коллективный опыт. В наши дни мы не просто считаем овец или головы. Мы способны произвести тщательные замеры важнейших аспектов нашей истории, языка и культуры. Простые графики, продемонстрированные нами, представляют собой верхушку огромного айсберга. В грядущие десятилетия личные, цифровые и исторические данные полностью изменят наше представление о себе и об окружающем нас мире. И перед тем как попрощаться с вами, мы бы хотели поделиться своими соображениями относительно того, что происходит или что будет происходить в будущем с точки зрения науки, обучения и нового зарождающегося общества.
А затем мы зададимся, хотя и ненадолго, последним вопросом: хорошо ли все это? Окажутся ли большие данные очередной землей обетованной? Не приведут ли наши сегодняшние решения к бедствиям в будущем?
Данные n-грамов, о которых мы вам рассказывали, взяты из миллионов книг. По современным стандартам это действительно большие данные. Но пройдет много лет, и мы станем иначе оценивать происходящее сейчас. В конце концов, пара миллионов книг – это всего лишь крошечный кусочек нашего обширнейшего культурного наследия.
Вспомним хотя бы Эдгара Аллана По. В отличие от многих писателей прежних эпох, По стремился обеспечивать себя исключительно писательским трудом. Однако при отсутствии международного закона об авторских правах это была не самая простая задача для писателя XIX века. Из финансовых соображений По публиковал свои произведения везде, где только мог, и во множестве жанров. Он писал стихи, рассказы, книги, пьесы, новеллы, обзоры, газетные статьи, эссе и письма. Он даже сфабриковал историю о путешествии на воздушном шаре через Атлантику и смог опубликовать ее на первой полосе нью-йоркской газеты Sun.
Когда мы думаем о будущем исторических записей и о том, что с ними станет, если их оцифровать, произведения По заставляют нас сразу же задаться массой вопросов. Какие части его наследия были оцифрованы в первую очередь? Как они оказались в цифровом мире? И что делать со всем остальным? Эти вопросы будут направлять наш короткий, но извилистый путь по историческим записям, имеющимся в настоящее время.
Книги. Поначалу наш Ngram Viewer черпал информацию из 4% всех когда-либо опубликованных книг, или примерно одной из каждых двадцати пяти. В 2012 году мы помогли Юрию Лину, Славу Петрову и другим работникам Google обновить версию Ngram Viewer и включить в базу около 6% всех книг, или одну из каждых семнадцати. Разумеется, мы использовали лишь книги, предоставленные Google. Если же включить все тридцать миллионов оцифрованных на данный момент книг, то мы получим немногим более 20% от общего количества. Что же ждет остальные 80%? Когда они смогут попасть в цифровые архивы?
К счастью, все больше новых книг появляется в цифровой форме и распространяется в электронном виде сразу же с момента публикации. Поскольку сейчас издается больше книг, чем когда-либо прежде в человеческой истории, доля книг, существующих в цифровой форме, значительно увеличивается с каждым днем.
Тем не менее у нас все равно остается проблема старых книг, существующих, к нашему неудобству, лишь в виде физических объектов. Именно здесь должны быть сконцентрированы основные усилия в области оцифровки. Частные корпорации и правительства занимаются этим вопросом, желая как сохранить наше коллективное наследие, так и заработать на нем. Во главе процесса остается Google. Компания уже оцифровала свыше 30 из 130 миллионов книг, существующих в наши дни. По ее расчетам, работа будет завершена к 2020 году. Иными словами, есть основания полагать, что вскоре подавляющее большинство имеющихся книг будет доступно в цифровом формате.
С количественной точки зрения это 25-кратное увеличение базы – с 4 до 100% – окажет огромное влияние на качество наблюдений, доступных для нашего культурного телескопа. Как не вспомнить о Галилее, вытолкнувшем Землю с центрального места во Вселенной с помощью телескопа, который был всего в тридцать раз более зорким, чем невооруженный глаз.
Несмотря на это, у нашего процесса изучения книг имеется целый ряд серьезных трудностей.
Первая из них связана с законодательством об авторском праве – более агрессивным, чем во времена По, и настолько же устаревшим. Хорошим примером может служить закон о продлении срока копирайта 1998 года. Согласно этому акту, авторские права на произведения сохраняются в течение 70 лет после смерти автора. По сути, это препятствует онлайновому изучению почти всех книг, опубликованных после 1923 года, причем в законе не делалось исключений для цифровых исследований или цифровых библиотек. Организации наподобие Internet Archive, HathiTrust и проекта «Гутенберг» прилагают массу усилий, чтобы сделать книги максимально доступными. Однако состояние законодательства в области авторского права таково, что они практически бессильны, когда речь заходит о книгах, опубликованных в прошлом столетии.
Это оказывает влияние на остальные элементы нашей информационной экосистемы. Например, наша исследовательская группа под названием «Культурная обсерватория» создала открытые инструменты, более мощные, чем Ngram Viewer, и способные разделять и анализировать данные книг множеством разных способов. Мы способны моментально изучить, как использовалось слово «ворон» на территории Соединенных Штатов в поэтических произведениях авторов в возрасте чуть за тридцать. Но мы можем сделать это только по данным до 1923 года. Когда дело касается прошлого столетия, то любой юрист, стоящий на страже корпоративных интересов, воскликнет (на манер ворона – героя стихотворения По): «Никогда!»
Есть и еще одна, значительно более серьезная опасность, с которой сталкиваются книги. По мере того как цифровые книги и цифровая информация получают все большее распространение, выживание физических книг оказывается под угрозой сразу на нескольких фронтах. Уже через три года после появления на рынке платформы Kindle для чтения электронных книг продажи книг в формате Kindle на сайте Amazon превысили по объему продажи бумажных. И это происходит не только в Amazon – в последние годы произошел вполне заметный сдвиг в сторону электронных книг на любых платформах и от любых продавцов. Разумеется, в долгосрочной перспективе печатный вид сохранят тексты огромной важности и значения, вроде Библии. Однако таких текстов немного. Длинный хвост ципфовского распределения показывает, что печать книг пойдет по пути развития неправильных глаголов. Через несколько лет книги наподобие нашей не будут иметь печатного вида.
Книги в своем физическом виде находятся под угрозой даже в своей привычной цитадели – библиотеке. На протяжении тысячелетий библиотека была единственным учреждением, призванным сохранять исторические записи. Однако в отличие от активно развивающихся онлайн-библиотек, их традиционные физические сородичи сталкиваются с большими проблемами. Через несколько лет у 60% библиотек бюджет снизится или вообще исчезнет. При отсутствии достаточного объема площадей и финансов библиотекам придется избавляться от целого ряда старых книг, чтобы выделить место для новых. Проблема состоит в том, что библиотеки не могут просто раздать свои старые книги. В библиотечные книги встроены специальные устройства, препятствующие воровству. И это приведет к тому, что честные люди будут время от времени считать, что эти книги были когда-то похищены из библиотек, и приносить их обратно. Удалять эти отслеживающие устройства довольно дорого. Поэтому библиотеки часто предпочитают сделать то, что кажется нам немыслимым, – они тайно уничтожают книги. Это происходит в огромных масштабах. Крупные библиотеки иногда разом избавляются от сотен тысяч книг.
Какие же книги покидают библиотеки? Практика варьируется, однако в целом библиотеки не особенно церемонятся с книгами. Мало кто прилагает усилия для отслеживания того, что мы теряем. В одном недавнем случае были уничтожены книги из библиотеки бывшего британского премьер-министра Дэвида Ллойд-Джорджа. Время от времени библиотека будет решать, от каких книг избавиться, проверяя, какие из них уже оцифровала Google. В результате мы внезапно можем лишиться значительной доли своего культурного наследия. Несколько глав назад мы рассказали о том, как цензура способна задавить те или иные идеи. Здесь же происходит обратное – попытки сделать книги более доступными угрожают их физическому выживанию. Оцифровка книг приводит к весьма противоречивым результатам.
Газеты. Разумеется, исторические записи не ограничиваются одними лишь книгами. К примеру, «кругосветный розыгрыш» По появился в газете. Старые газеты представляют собой уникальный ресурс, в котором отражены повседневные проблемы городов, общественных движений и других социальных групп. Насколько велики шансы найти цифровое издание «кругосветного розыгрыша» По?
Поначалу мы считали, что шансы на это велики. Оцифровка старых газет приобрела значительные масштабы. К настоящему времени ведущие газеты вроде New York Times, Boston Globe и многих других уже полностью оцифровали свои архивы. Национальный фонд гуманитарных наук профинансировал оцифровку старых американских газет – около шести миллионов страниц, отражавших историю целого столетия. Прогрессировали и другие страны. В рамках одного лишь проекта Australia’s Trove было оцифровано около ста миллионов газетных статей. Этой деятельностью в течение какого-то периода занималась и Google, оцифровав архивы двух тысяч газет.
Однако, несмотря на эти впечатляющие шаги, никакие усилия по оцифровке газет не сопоставимы по масштабу и покрытию с книжным проектом Google.
Идеальным примером этого неравенства может считаться «кругосветный розыгрыш» По. Найти цифровое издание этого розыгрыша несложно. Однако это связано с успехом оцифровки книг, а не газет. Хвост этой истории настолько велик, что рассказ о ней возникает во множестве книг, описывающих жизнь и работу По. Эти книги, как и книги самого По, уже были оцифрованы.
Однако вам не удастся найти цифровую копию газеты, которая изначально опубликовала эту историю. Национальный гуманитарный фонд профинансировал оцифровку выпусков нью-йоркской газеты Sun лишь за период с 1859 по 1920 год. Розыгрыш, опубликованный в 1844 году, оказывается очередным «белым пятном» в процессе оцифровки газет. Основная масса газетных статей, написанных По, не оцифрована, и никто не знает, когда это будет сделано.
Неопубликованные тексты. Книгопечатание представляет собой сравнительно недавнее изобретение. До появления печатного станка тексты распространялись в виде рукописей, написанных и скопированных от руки. В наши дни множество прекрасных текстов выживает лишь в этой форме. Многие знаменитые рукописи, наподобие манускриптов Мертвого моря, уже были оцифрованы, также как и другие важные коллекции, например греческие рукописи в Британской библиотеке. Однако систематические усилия по оцифровке рукописей предпринимаются лишь на местном уровне.
Разумеется, создание неопубликованных текстов не остановилось с появлением книгопечатания. После По осталось 422 письма. В его случае письма были оцифрованы, однако история напоминает то, что приключилось с его «кругосветным розыгрышем»: письма По подверглись цифровой обработке только потому, что он был очень знаменит и они упоминались во множестве источников. Другие материалы самого По и других авторов о нем были оцифрованы в рамках любительских проектов (например, проекта Austin’s Harry Ransom Center в университете штата Техас). В университете можно найти цифровые изображения отдельных рукописей По, адресованных ему писем и некоторых незаконченных произведений. Образ Эдгара Аллана По можно увидеть даже на карточках-вкладышах в сигаретные пачки. До наступления тех времен, когда определенную культурную нишу в США заняли карточки с изображениями бейсболистов, многие актеры, модели и писатели вносили свой посильный вклад в стимулирование продаж табака.
Но когда речь заходит о неопубликованном материале, наследие По оказывается значительно менее репрезентативным. Люди вроде него имеют звездный статус. Почти все, связанное с ними, будет найдено и оцифровано. А что насчет всех остальных? Заметки, журналы и переписка 99% других людей пылится на чердаках и в старых сундуках. Разобраться с ними крайне сложно, и усилия по их оцифровке представляют собой редкие исключения.
Один из немногих примеров успешной попытки разобраться с материалом такого рода был предпринят Афсане Наджамбади, преподавательницей из Гарварда, изучающей иранских женщин. Она буквально ходила от двери к двери в иранских городах, спрашивая жителей о том, не сохранились ли у них какие-нибудь исторические документы, связанные с жизнью женщин. Затем она тщательно создавала цифровые образы всего, что удавалось найти. Результат – архив под названием «Миры женщин в Иране при династии Каджаров» – открыт в свободном доступе по адресу: http://www.qajarwomen.org. Это настоящая сокровищница всего, от завещаний до почтовых открыток и брачных контрактов. Подобные сокровища имеются во всех обществах. Однако время медленно убивает их.
И, как ни печально, для остановки этого процесса не предпринимается никаких систематических усилий.
Физические объекты. Неподалеку от старого дома По в Ричмонде, штат Виргиния, располагается музей, где можно увидеть его трость, кровать, на которой он спал подростком, кое-что из его старой одежды, фортепьяно его жены, портрет его отчима и даже прядь волос. Такие музеи напоминают нам, что человеческая история представляет собой нечто большее, чем могут сказать слова. Историю можно найти и в картах, которые мы рисовали, и в созданных нами скульптурах. Ее можно встретить и в выстроенных нами домах, и в полях, которые мы возделывали, и в одежде, которую мы носили. Она присутствует и в еде, которой мы питались, и в музыке, которую мы играли, и в богах, в которых мы верили. Она живет и в пещерах, которые мы украшали рисунками, и в окаменелостях созданий, живших до нас.
Большая часть этого материала будет неминуемо утрачена – создавать новое мы умеем гораздо лучше, чем хранить уже созданное. Но в наши дни становится возможным сохранить куда больше, чем когда-либо в прошлом. Проекты типа Europeana пытаются придать цифровую форму и разместить в сети Интернет миллионы культурных артефактов из музеев, архивов и хранилищ по всей Европе. Объекты искусства можно сфотографировать с огромным разрешением, в двух или даже трех измерениях. Это позволяет сайтам вроде http://www.artsy.net помогать людям увидеть множество самых значительных произведений искусства в мире. Вам нравится горшок, созданный в эпоху неолита? В наши дни вы можете отсканировать его в трех измерениях, а затем воспользоваться 3D-принтером, чтобы создать его копию. Какую часть истории мы сможем сохранить, пока она не исчезла?
Для того чтобы что-то изменить, нам нужно мыслить масштабно.
Уже сейчас мы живем в эпоху большой науки. Большой адронный коллайдер, предназначенный для поисков бозона Хиггса, обошелся в 9 миллиардов долларов. Проект «Геном человека» (цель которого состоит в определении последовательности символов, записывающих химический код, лежащий в основе человеческой жизни) стоил 3 миллиарда. Средства, которые мы вкладываем в понимание человеческой истории, значительно меньше – весь годовой бюджет Национального гуманитарного фонда наук составляет около 150 миллионов долларов.
Оцифровка исторических данных представляет собой беспрецедентную возможность для организации работы в области гуманитарных наук по новым принципам. Если мы способны оправдать проекты с миллиардными бюджетами в области точных наук, то нам стоит подумать и о потенциальном влиянии многомиллиардного проекта, направленного на фиксирование, сохранение и обмен самыми важными и деликатными примерами нашей истории. Эти данные должны быть доступны нам и нашим детям. Работая сообща, команды ученых и инженеров могут создать невероятно мощные общие ресурсы. И эти усилия способны легко привести к появлению аналогов Google и Facebook завтрашнего дня. В конечном счете обе эти компании начали с попыток оцифровать те или иные аспекты нашего общества. Мир больших данных в области гуманитарных наук еще ждет своего часа.
Тем не менее, несмотря на значительный объем работ, который нам предстоит, оцифровка исторических данных уже сделала значительный шаг вперед. Наличие ресурсов, доступ к которым можно получить одним нажатием клавиши, меняет наше восприятие прошлого и позволяет без проблем показывать нашим детям то, что в прежние времена требовало путешествия в Лувр или Смитсоновский институт. Эти ресурсы изменят стиль общения ученых с прошлым. Они помогут нам лучше наблюдать и понимать, каким образом литература и искусство, а также вопросы войны и любви заняли свое теперешнее место.