Книга: Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Назад: Примечания
Дальше: Примечания

72

См. Miller G. A. Introduction to The Psycho-Biology of Language. Cambridge, MA: MIT Press, 1965, доступно в сети Интернет: http://goo.gl/KYvOcK. Полная цитата из введения к изданию книги 1965 года кажется теперь актуальной, как никогда раньше: «Цель книги The Psycho-Biology of Language („Психобиология языка“) состоит в не том, чтобы удовлетворить всем вкусам. Ципф был из той породы людей, которые разделяют розы на части, чтобы посчитать их лепестки; если вы считаете кощунством переставление местами слов в шекспировском сонете и их подсчет, то эта книга не для вас. Ципф относился к языку как ученый – и для него это означало статистический анализ языка как биологического, психологического и социального процесса. Если такой анализ отталкивает вас, то оставьте язык в покое и бегите от Джорджа Кингсли Ципфа как от чумы. Вам будет куда приятнее читать цитаты Марка Твена: „Существует три вида лжи: ложь, наглая ложь и статистика“ или У. Х. Одена: „Да не будешь ты сидеть рядом со статистиками или заниматься социальными науками“. Однако тем, кто не побоится убить красоту ради благого дела, научные старания Ципфа помогут прийти к прекрасным и неожиданным результатам, поражающим разум и дразнящим воображение».

73

См. Jenkins Sally. Burned-out Phelps Fizzles in the Water Against Lochte // Washington Post (29 июля 2012 г.).

74

См. Rohlin Melissa. Kobe Bryant Says He Learned a Lot from Phil Jackson // Los Angeles Times (14 ноября 2012 г.), доступно в сети Интернет: http://goo.gl/bKGDTg.

75

См. обсуждение этого вопроса в книге Pinker Steven. Words and Rules: The Ingredients of Language. New York: Basic Books, 1999; статье Lieberman et al. Quantifying the Evolutionary Dynamics of Language и вспомогательных материалах к ней; Michel2011 и Michel2011S.

76

Мы предполагаем, что соотношение частоты употребления слов burned и burnt отражает пропорцию англоговорящих жителей Великобритании, использующих каждую из форм.

77

См. Meldrum Jeff. Sasquatch: Legend Meets Science. New York: Forge, 2006.

78

Эти создания, и не только они, обсуждаются в книге Coleman Loren, Clark Jerome. Cryptozoology A to Z. New York: Fireside, 1999. Важно отметить, что чупакабры бродят стаями; если вы натолкнетесь на одну из них в каком-то предложении, велики шансы, что где-то по соседству есть и другие. Частота употребления слова Chupacabra в настоящее время растет, так что велики шансы, что в будущем они не окажутся под угрозой уничтожения.

79

С помощью простого перемножения цифр мы получили результат 500 лет. По всей видимости тысяча лет, о которой говорила Коулман, предполагала совершение еще каких-то действий, помимо перелистывания страниц. И, разумеется, речь шла о том, что этой работой будет заниматься один человек. В таком случае при наличии 130 миллионов книг и 40 минут на обработку каждой завершение работы потребовало бы 9900 лет.

80

См. Taycher Leonid. Books of the world, stand up and be counted! All 129 864 880 of you // Google Books Search (5 августа 2010 г.), доступно в сети Интернет: http://goo.gl/5yNV. Тайчер – главный гуру Google по вопросам метаданных.

81

Как знает каждый, кто когда-либо пытался сделать ксерокопию книги, получение хороших копий – задача не из легких. Вот, к примеру, лишь одна из проблем, которые необходимо преодолеть: страницы в книгах не лежат ровно; чем ближе к обложке, тем сильнее они изгибаются вовнутрь. Для решения этой проблемы Google разработала систему корректировки каждого изображения с учетом этого изгиба. Более подробное объяснение этого процесса приведено в Michel2011S.

82

См. Google Books History, доступно в сети Интернет: http://goo.gl/ueobb.

83

Вполне возможно создать предложение любой длины на английском языке с использованием одной лишь фамилии Пейджа и слова page («страница», «полоса», «паж» и так далее). См., к примеру: «Page!» (Марисса Майер приказывает своему подчиненному перевернуть страницу); «Page, page!» (Марисса отдает то же самое приказание Ларри); «Page, page pages!» (более детальная инструкция); «Page, page Page’s pages!» (паж должен перелистывать страницы, с которыми не справился Ларри); «Page, page Page’s page’s pages» (Пейдж должен заняться перелистыванием страниц мальчика-пажа другого Пейджа); «Page, page pages Page’s page pages» (Марисса приказывает пажу заняться перелистыванием страниц, которые обычно перелистывает другой паж, прислуживающий Ларри).

84

Средние значения опросов Института Гэллапа за семь дней были основаны на опросах примерно 2700 потенциальных избирателей. См. Election 2012 Likely Voters Trial Heat: Obama vs. Romney // Gallup, доступно в сети Интернет: http://goo.gl/ujbzb.

85

Информацию об учебном курсе MOOC можно найти в Introduction to Artificial Intelligence, доступно в сети Интернет: https://www.udacity.com/course/cs271. Учебник Норвига: Russell Stuart J., Norvig Peter. Artificial Intelligence: A Modern Approach. Englewood Cliffs, NJ: Prentice Hall, 1995.

86

«Википедия» внимательно следила за судебными разбирательствами, их непростым и непрерывным потоком. См. Google Book Search Settlement // Wikipedia (23 июня 2013 г.), доступно в сети Интернет: http://goo.gl/8E5Cx. Некоторые юридические аспекты обсуждаются в статье Trigona Giovanna Occhipinti. Google Book Search Choices // Journal of Intellectual Property Law and Practice 6, no. 4 (10 марта 2011 г.). P. 262–273. В более общем виде эта же информация содержится в книге Leaffer Marshall A. Understanding Copyright Law, 5th ed. Albany, NY: Matthew Bender, 2011. Довольно подробная библиография по этому вопросу приведена в работе Bailey Charles W., Jr. Google Books Bibliography // Digital Scholarship, 2011, доступно в сети Интернет: http://goo.gl/grff2. См. комментарии Рубина на сайте Rubin Thomas C. Searching for Principles: Online Services and Intellectual Property // Microsoft, доступно в сети Интернет: http://goo.gl/GX3CB.

87

См. Barbaro Michael, Zeller Tom, Jr. A Face Is Exposed for AOL Searcher No. 4417749 // New York Times (9 августа 2006 г.), доступно в сети Интернет: http://goo.gl/c8MCY; About AOL Search Data Scandal, доступно в сети Интернет: http://goo.gl/6hnfuI.

88

Доступно в сети Интернет: http://www.google.org/flutrends/intl/ru/ru/#RU/ Сервис Google, позволяет определить скорость распространения вируса гриппа в различных странах (Прим. пер.).

89

Вследствие своей актуальности для проблемы секвенирования генома разработан весьма впечатляющий теоретический аппарат по анализу проблемы сбора текстов из крошечных элементов. Качественные изменения в этом вопросе возникли после развития статистического аппарата Ландера – Уотермена. Благодаря значительным улучшениям технологии секвенирования генома и вследствие достаточно сложной повторяющейся структуры генома млекопитающих эта статистика может применяться не только для работы над геномом, но и для анализа текстов с помощью n-грамов. См. Lander E. S., Waterman M. S. Genomic Mapping by Fingerprinting Random Clones // Genomics 2, no. 3 (апрель 1988 г.). P. 231–239. Доступно в сети Интернет: http://academic.research.microsoft.com/Publication/1323792/genomic-mapping-by-fingerprinting-random-clones-a-mathematical-analysis.

90

См. Quayle Dan. Standing Firm. New York: HarperCollins, 1994; Fass Mark. How Do You Spell Regret? One Man’s Take on It // New York Times (29 августа 2004 г.), доступно в сети Интернет: http://goo.gl/gWW4wK.

91

Пэйлин весьма ловко использовала 1-грам в своем твите от 18 июля 2010 г. Перед этим она воспользовалась этим словом во время телевизионного выступления. См. Read Max. Sarah Palin Invents New Word: «Refudiate» // Gawker (19 июля 2010 г.), доступно в сети Интернет: http://goo.gl/XjV7TJ.

92

См. Macrone Michael. Brush Up Your Shakespeare. New York: HarperCollins, 1990; McQuain Jeffrey, Malless Stanley. Coined by Shakespeare. Springfield, MA: Merriam-Webster, 1998.

93

Несмотря на свою консервативную репутацию среди лингвистов, AHD довольно долго был новаторским с точки зрения применяемых методов. В 1967 году Генри Кучера и У. Нельсон Фрэнсис опубликовали Brown Corpus, сборник текстов, состоявший из миллиона слов и представлявший широкий набор жанров. Эта публикация обеспечила инструментарий для развития корпусной лингвистики как научной дисциплины и тем самым является во многих отношениях самым ранним и самым важным предвестником корпуса, созданного нами в Google. Вскоре после этого издатель Х. Миффлин связался с Кучерой по вопросу создания корпуса для нового словаря, над которым работала его компания. По сути, издатель намеревался реализовать на практике стратегию Элдриджа (см. сноски к разделу «1937: Одиссея данных»), используя лексическую статистику для конструирования словаря английского языка. Первое издание American Heritage Dictionary, вышедшее в свет в 1969 году, стало первым словарем, построенным по такому принципу. Разумеется, нам было крайне интересно посмотреть, насколько хорошо методы создания AHD выглядят с учетом нашего нового мощного корпуса, основанного на текстах Google Books. К счастью, Джозеф П. Пикетт, ответственный редактор AHD с 1997 по 2011 год, с радостью поучаствовал в этом процессе. Благодаря его активному сотрудничеству и помощи со стороны его подчиненных наш анализ American Heritage Dictionary был чрезвычайно успешен. Все цифры относительно AHD в настоящей книге взяты из прямого общения с ними или из представленной ими информации (Пикетт даже стал одним из соавторов Michel2011.) Хотя мы время от времени и критикуем AHD в нашей книге, ясно, что сотрудники AHD отлично понимали: новые методы анализа помогут им улучшить свой словарь. Мы считаем крайне важной прозрачность в лингвистическом процессе, и никакой другой справочный источник несравним с AHD в этом отношении.

94

Команда AHD снабдила нас списком из 153 459 слов, словника четвертого издания их словаря. Иногда одно и то же слово появлялось в списке несколько раз, к примеру, слово console («держатель» и «утешать») появлялось сначала как существительное, а затем – как глагол (мы удалили все удвоенные записи такого рода). Также мы удалили из списка выражения, состоявшие более чем из одного слова (такие как men’s room – «мужской туалет»). В результате список состоял из 116 156 слов.

95

Эти цифры относятся к последнему печатному изданию OED (2-е изд., 1989 год). Многие люди, в том числе директор издательства Oxford University Press Найджел Портвуд, подозревают, что третье издание уже никогда не появится в печатном виде вследствие общей миграции такого рода источников в сеть Интернет. Увы, с OED мы не сотрудничали. На веб-сайте OED указано, что «количество словоформ, имеющих определение и/или проиллюстрированных» равно 615 100. Как отмечено во введении, в этом издании содержалось также 169 000 «фраз и комбинаций, выделенных курсивом или жирным шрифтом», не представляющих собой 1-грамы. По нашему расчету, разница между этими двумя значениями составляет 446 000. Это не точный расчет, а, скорее, верхняя граница – второе издание OED имеет не больше 446 000 слов в виде 1-грам, а, скорее, даже меньше. Не так давно работники OED пригласили нас поучаствовать в симпозиуме, посвященном будущему словарю, поэтому, возможно, нас ждет более динамичное сотрудничество, в стиле AHD. Разумеется, точные цифры будут как нельзя более кстати. См. Oxford English Dictionary, 2nd ed. Oxford: Oxford University Press, 1989; Dictionary Facts // Oxford English Dictionary, доступно в сети Интернет: http://goo.gl/DL6a7; Aarts Bas, McMahon April. The Handbook of English Linguistics. Hoboken, J: John Wiley  &  Sons, 2008; Jamieson Alastair. Oxford English Dictionary «will not be printed again» // Telegraph (29 августа 2010 г.), доступно в сети Интернет: http://goo.gl/V5g8Ak.

96

Каждый год AHD рассылает вопросник участникам опроса из числа пользователей. Один раз работники AHD позволили нам создать собственное дополнение к вопроснику и разослать его участникам для заполнения. Затем мы сравнили их результаты с выводами, полученными с помощью n-грамов. К примеру, мы спросили их о том, какую из форм глагола (sneaked и snuck) они считали приемлемой. Оказалось, что более молодые участники значительно чаще считали форму snuck допустимой. Результаты n-грамов демонстрировали быстрое распространение этой формы в последние десятилетия. В совокупности эти результаты показывают, что участники опроса, а возможно, и остальные пользователи языка, формируют представления о допустимости той или иной формы в юности. См. American Heritage Dictionary of the English Language, 4th ed. Boston: Houghton Mifflin, 2000; The Usage Panel // American Heritage Dictionary, 2013, доступно в сети Интернет: http://goo.gl/JtT4l; Nelson Francis, Kučera Henry. Brown Corpus Manual. Brown University Department of Linguistics, 1979.

97

Рузвельт поддерживал план, изначально предложенный группой под названием Simplified Spelling Board. См. Wolman David. Righting the Mother Tongue: From Olde English to Email, the Tangled Story of English Spelling. New York: Harper Perennial, 2010. Оригинал письма Рузвельта (Letter from Theodore Roosevelt to William Dean Howells) по этому вопросу можно увидеть в виде цифрового факсимиле в Theodore Roosevelt Center at Dickinson State University, доступно в сети Интернет: http://goo.gl/JA8cP.

98

Rolling on floor laughing («катаюсь по полу от смеха»). Если эта аббревиатура вам незнакома, не переживайте – она неизвестна и большинству словарей.

99

Например, как известно, AHD опирается на группу из примерно двухсот экспертов в области языка из разных областей – от судьи Верховного суда Антонина Скалиа до редактора кроссвордов в газете New York Times Уилла Шортца и писателя, лауреата Пулитцеровской премии Джунота Диаза. Возглавляет ее работу Стивен Пинкер (являющийся также соавтором Michel2011). Экспертная комиссия во многом опирается на противоположный культуромике или статистике текстового корпуса подход. Этот подход полагается не на репрезентативную выборку, а на усилия небольшого количества – лексической элиты.

100

См. ожесточенные споры на эту тему, описанные в: Acocella Joan. The English Wars // New Yorker (14 мая 2012 г.), доступно в сети Интернет: http://goo.gl/wGVHsx; Bloom Ryan. Inescapably, You’re Judged by Your Language // New Yorker (29 мая 2012), доступно в сети Интернет: http://goo.gl/js9VJc; Pinker Steven. False Fronts in the Language Wars // Slate (31 мая 2012), доступно в сети Интернет: http://goo.gl/33vNYT. Споры идут и в научных кругах. См., к примеру, Bergenholtz Henning, Gouws Rufus H. A Functional Approach to the Choice Between Descriptive, Prescriptive and Proscriptive Lexicography // Lexicos 20 (2010), доступно в сети Интернет: http://goo.gl/agXm7S.

101

Все примеры анализа, представленные в главе, подробнее разбираются в Michel2011 и Michel2011S.

102

Мы рассчитали распределение частоты употребления 116 156 уникальных 1-грам (исходных слов) в American Heritage Dictionary. После десятого процентиля, то есть примерно на уровне одно на миллиард, частота резко возрастает.

103

При этом не вполне понятно, должно ли слово состоять исключительно из буквенных символов. К примеру, OED (впервые в своей истории) не так давно добавил статью о символе ♥. См. Ho Erica. The Oxford-English Dictionary Adds «♥» and «LOL» as Words // Time (25 марта 2011 г.), доступно в сети Интернет: http://goo.gl/0RB6EA.

104

Заметим, что этот ципфовский словарь представляет собой всего лишь современную интерпретацию идеи, предложенной Элдриджем и реализованной в AHD (что для улучшения качества словарей может использоваться лексическая статистика). Один из первых и убедительных аргументов в пользу этого подхода появляется в статье Bailey Richard W. Research Dictionaries // American Speech 44, no. 3 (1969). P. 166–172. Доступно в сети Интернет: http://goo.gl/4RqfDu.

105

Категории, исключенные из поиска (составные слова, варианты написания и неопределяемые понятия), выбирались на основании результатов обсуждений с Джозефом Пикеттом из American Heritage Dictionary. Принципы исключения варьируются, но в целом при составлении словарей процесс сознательного исключения всегда шел рука об руку с процессом сознательного включения. Сэмюел Джонсон обсуждает множество примеров исключенных слов в своем знаменитом словаре 1755 года. Пространное рассуждение доктора Джонсона по этому вопросу, приведенное во вступлении, не упоминает небуквенных понятий, однако обращается к трем другим классам исключений. Составные слова в основном исключены: «Составные или двойные слова были чаще всего исключены, кроме случаев, когда у итогового слова появляется иное значение, чем у составляющих его элементов. Таким образом, слова highwayman („разбойник“), woodman („лесник“) и horsecourser („заводчик лошадей“) заслуживают включения в словарь; а для слов типа thieflike („напоминающий вора“) или coachdriver („возница“) специальных статей не требуется, поскольку их смысл не отличается от смысла составляющих их слов». Варианты написания, в основном оставленные в словаре: «Я отказался от некоторых, поскольку они не были необходимыми или показались избыточными; при этом я оставил те, которые по-разному создавались и употреблялись различными авторами, к примеру viscid и viscidity („вязкий“ и „вязкость“), viscous и viscosity („липкий“ и „липкость“)». К тому же правила написания слов были в то время значительно менее стандартизованными. Сложные для определения понятия: «Есть и такие, смысл которых слишком трудноуловим и непостоянен для того, чтобы зафиксировать его в пересказе; это и те слова, которые специалисты по грамматике относят к бранной лексике, и слова из мертвых языков, вынужденным образом превратившиеся в набор пустых звуков. Это и слова, единственный смысл которых состоит в заполнении пауз или обозначении окончания предложения, активно использующиеся в живых языках. Они были исключены, хотя порой их нельзя заменить никакими другими средствами». Он также исключает множество других категорий, которые не отражаются в словарях и в наши дни. Имена: «Поскольку моей целью было создание словаря, содержащего обычные или нарицательные слова, я исключил все, связанное с именами собственными, как, например, „арианский“, „социнианский“, „кальвинистский“, „бенедиктинский“ и „магометанский“; при этом я оставил слова, имеющие более широкий смысл, например „языческий“». Специальная лексика: «Должен признать, что я был вынужден исключить из словаря многие понятия из области искусства или ремесел; это было неизбежно: я не мог ни спуститься в шахты, чтобы изучать язык шахтеров, ни совершить морское путешествие, чтобы усовершенствовать навыки в области навигационных понятий, ни заходить на склады купцов, в магазины торговцев искусством, ни собирать названия приспособлений, инструментов и действий, которые обычно не упоминаются в книгах; я не отказывался от включения в словарь слов, оказавшихся в моем распоряжении или ставших доступными мне благодаря счастливому случаю; однако я считал совершенно бесплодным трудом собирать слова из всего окружающего мира, что было бы сопряжено с многочисленными трудностями». В ходе проведенного нами анализа онлайновый словарь Merriam-Webster часто оказывается богаче OED с точки зрения медицинской лексики, поскольку включает в себя отдельный и обширный словарь медицинских терминов (неопубликованная рукопись). Иностранные слова: «Я фиксировал по мере их возникновения слова, которые используют наши авторы благодаря своему знанию иностранных языков или по причине собственного невежества, тщеславия или следования моде, из-за страсти к новшествам. При этом я тщательно их отбирал и призываю остальных воздерживаться от замещения наших родных слов натурализованными и бесполезными иностранными». Причудливые слова: «Не всегда отсутствие слов в словаре должно восприниматься как упущение. Выражения, активно и повсеместно используемые большой частью людей, возникают случайным и непредсказуемым образом; многие из них появляются для временного или локального удобства, и, активно употребляясь в определенных местах или в определенные моменты времени, практически неизвестны где-либо еще. Такие непостоянные жаргонные средства, все время находящиеся в состоянии роста или исчезания, не могут считаться полезными элементами языка, и, таким образом, им суждено исчезнуть вместе со всем, что не заслуживает сохранения». В английском языке есть множество видов темной материи. См. Johnson Samuel. A Dictionary of the English Language. London, 1755; Merriam-Webster’s Collegiate Dictionary. 11th ed. Springfield, MA: Merriam-Webster, 2003. Также мы рекомендуем книгу Carolino Pedro. English As She Is Spoke. New York: Appleton, 1883.

106

Мы выбрали тысячу слов из словаря и посчитали, как много из них попадает в исключенные категории. В результате у нас нет исчерпывающего списка темной материи английского языка. Как и в случае темной материи во Вселенной, мы не знаем в точности, из чего она состоит, – мы лишь знаем, что ее очень много.

107

См. All of the Words of the Year, 1990 to Present // American Dialect Society, доступно в сети Интернет: http://goo.gl/JCYMiK.

108

Мы с огромным удовольствием проголосовали за слово skyaking – прыжки с самолета на каяке. При этом нам представляется, что вследствие смертельной опасности, которой подвергаются поклонники этого вида спорта, есть немало эволюционных оснований считать, что такое слово действительно не имеет будущего. Разумеется, к предсказаниям ADS не стоит относиться слишком серьезно; к 2011 году слово «культуромика» вошло в словари Random House и Macmillan. См. Culturomics // Macmillan Dictionary online, доступно в сети Интернет: http://goo.gl/qkg8GE; Culturomics // Dictionary.com, доступно в сети Интернет: http://goo.gl/EmvAhE.

109

Расчеты для промежуточных точек были сделаны с помощью метода линейной интерполяции.

110

Интересно поразмышлять о точных причинах изменений в языке (и о будущем английского языка в частности). См. Erard Michael. English As She Will Be Spoke // New Scientist (29 марта 2008 г.); English Is Coming // Economist (12 февраля 2009 г.), доступно в сети Интернет: http://goo.gl/wcPGt8. Люди уже давно интересовались подобными вопросами. См. Jacobs Joseph. Growth of English-Amazing Development of Language as Shown in New Standard Dictionary’s 450 000 Words // New York Times (16 ноября 1913 г.).

111

Связь между частотой употребления и выравниванием исследуется в работе Bybee Joan L., Morphology: A Study of the Relation Between Meaning and Form. Amsterdam: John Benjamins, 1985. В целом была проведена большая работа по исследованию лингвистических изменений. См., к примеру, Labov William. Transmission and Diffusion // Language 83, no. 2 (June 2007). P. 344–387. Доступно в сети Интернет: http://goo.gl/aZ5M2R; Corbett Greville et al. Frequency, Regularity, and the Paradigm: A Perspective from Russian on a Complex Relation // Bybee J. L., Hopper P. J. (eds.) Frequency and the Emergence of Linguistic Structure. Amsterdam: John Benjamins, 2001. P. 201–228. Эти вопросы также можно изучать с более явной эволюционной точки зрения. См. Pagel Mark. Wired for Culture: Origins of the Human Social Mind. New York: W. W. Norton, 2012; Pagel Mark. Atkinson Quentin D., Meade Andrew. Frequency of Word-Use Predicts Rates of Lexical Evolution Throughout Indo-European History // Nature 449 (11 октября 2007 г.). P. 717–720. Доступно в сети Интернет: http://goo.gl/93WiJ0.

112

Есть много примеров подобных переходов от двух слов в составном понятии к одному слову с дефисом. См., к примеру, NV: rail road, rail-road, railroad («железная дорога»).

113

Слово «секрет» – segreto – связано с тем фактом, что Archivio Segreto Vaticano считается личной собственностью римского папы. Это не значит, что архив обязательно напичкан массой интересных материалов, таких как, скажем, письмо от английского парламента, требующее развода для Генриха VIII, или приказа папы об отлучении от церкви Мартина Лютера, или письма, объявляющего об отречении от трона «гермафродита» королевы Швеции Кристины. К счастью, проделанная в последние годы большая работа по каталогизации значительно упростила поиск книг в архиве.

114

Интересный, однако более не обновляющийся рассказ о проблемах, с которыми поначалу столкнулась Google в работе с метаданными книг, можно найти в весьма информативном блоге Language Log. См. Nunberg Geoff. Google Books: A Metadata Train Wreck // Language Log (29 августа 2009 г.), доступно в сети Интернет: http://goo.gl/AwNArh. C тех пор качество метаданных книг значительно улучшилось.

115

См. Michel2011S.

116

Расчеты, связанные с качеством расшифровки генома, основаны на данных статьи Lander Eric et al. Initial Sequencing and Analysis of the Human Genome // Nature 409, no. 6822 (2001). P. 860–921. Доступно в сети Интернет: http://goo.gl/trMZ4e.

117

Один из новых аргументов юристов заключается в том, что предоставление цифровых копий миллионов текстов, защищенных копирайтом, для чтения (так называемого «потребительского» использования) представляет собой нарушение авторского права. В этой связи можно предположить, что вычисления, производимые с теми же защищенными текстами («непотребительские» виды использования), не являются нарушением, если только результат не включает в себя больших кусков изначального текста. n-грамы представляют собой пример полезного «непотребительского» использования книг, и мы указали на это в экспертном заключении для суда по делу Authors Guild, Inc., et al., v. Google, Inc. См. письмо Эреца Либермана Эйдена и Жана-Батиста Мишеля в суд, 3 сентября 2009 г. (ECF No. 303), Authors Guild, Inc., et al., v. Google, Inc., 770 F.Supp.2d 666 (S.D.N.Y., 22 марта 2011 г.) (No. 05- Civ.-8136). Не так давно этот аргумент был использован в разбирательстве Authors Guild, Inc., et al. v. HathiTrust et al. (S.D.N.Y., 2012). HathiTrust Digital Library предлагает прямой доступ к миллионам оцифрованных книг, полученных от участвующих в проекте библиотек. Во многих случаях эти книги были оцифрованы Google. 10 октября 2011 г. федеральный судья Южного округа Нью-Йорка Гарольд Баэр-мл. вынес решение в пользу HathiTrust. В решении было подчеркнуто, что «непотребительские» вычисления, связанные с большой коллекцией книг, представляют собой «бесценный вклад в прогресс науки и развитие искусств» и что подобная деятельность «вполне подпадает под определение добросовестного использования». Для подкрепления своей точки зрения судья Баэр процитировал экспертное заключение Мэттью Л. Джокерса, Мэттью Сага и Джейсона Шульца, под которым мы также поставили свои подписи; в качестве конкретного примера судья указал на тот же n-грам, который мы использовали во вступлении к этой книге: «частота, с которой авторы используют с течением времени слова is и are в отношении Соединенных Штатов». Вердикт судьи: Brief of Digital Humanities and Law Scholars as Amici Curiae in Partial Support of Defendants’ Motion for Summary Judgment // Authors Guild, Inc., et al., v. HathiTrust et al., 902 F.Supp.2d 445 (S.D.N.Y., 10 октября 2012 г.) (No. 11-Civ.– 06351) 2012 WL 4808939.

118

См. The Colbert Report, 6:38, 7 февраля 2007 г, http://goo.gl/iFMGCt. Пинкер был соавтором Michel2011.

119

Пер. В. Емелина (Прим. пер.).

120

См. Zeitgeist 2010: How the World Searched // Google Zeitgeist, 2011, доступно в сети Интернет: http://goo.gl/OCpY2X.

121

«Вы узнаете ее, когда увидите», разбирательство Jacobellis v. Ohio, 378 U.S. 184 (1963).

122

См. Wright Wilbur et al. The Papers of Wilbur and Orville Wright. New York: McGraw-Hill, 2000; Jakab Peter L. Visions of a Flying Machine: The Wright Brothers and the Process of Invention. Washington, DC: Smithsonian Institution Press, 1990; Hagler Gina. Modeling Ships and Space Craft: The Science and Art of Mastering the Oceans and Sky. New York: Springer, 2013.

123

Видео этого события можно найти в статье: Steele Flubs «Favorite Book» Reference During Debate // Newsmax (3 января 2011 г.), доступно в сети Интернет: http://goo.gl/8hh40.

124

См. Medea Andra. Carol Gilligan // Jewish Women: A Comprehensive Historical Encyclopaedia, доступно в сети Интернет: http://goo.gl/LN2al.

125

Английский перевод проведенного Андвордом в 1930 году исследования можно увидеть в статье Andvord Kristian F. What Can мы Learn by Following the Development of Tuberculosis from One Generation to Another? // International Journal of Tuberculosis and Lung Disease 6, no. 7 (2002). P. 562–568. Обзор классических исследований когорт приведен в Doll Richard. Cohort Studies: History of the Method // Sozial- und Präventivmedizin 46, no. 2 (2001). S. 75–86. Доступно в сети Интернет: http://goo.gl/dRJKCp. Весь анализ в этой главе основан на Michel2011 и подробно описан там и в Michel2011S.

126

Позднее Верес и журналист, писавший на научные темы, Джон Богэннон использовали n-грамы для составления научного Зала славы, в который вошли наиболее часто упоминаемые современные ученые. Они рассчитали славу каждого ученого в миллидарвинах (один миллидарвин – одна тысячная славы Дарвина). Самым знаменитым ученым, по их версии, оказался Бертран Рассел, антивоенные взгляды которого сделали его крайне противоречивым субъектом. А самый знаменитый из ныне живущих ученых – Ноам Хомский с показателем 507 миллидарвинов. См. Veres Adrian, Bohannon John. The Science Hall of Fame // Science 331, no. 6014 (14 января 2011 г.), доступно в сети Интернет: http://goo.gl/6g8b7X.

127

Небесный дом Адриана имеет орбитальный период, составляющий 3,47 земных лет.

128

Составление списка пятидесяти самых знаменитых людей, родившихся между 1800 и 1950 годами, связано с целым рядом серьезных технических сложностей. Одна из проблем заключается в том, чтобы решить, к кому именно относится имя. К примеру, о ком говорит n-грам Winston Churchill – о государственном деятеле, родившемся в 1874 году, о его внуке, родившемся в 1940-м, о писателе по имени Уинстон Черчилль, родившемся в 1971-м, или же представляет собой неразделимую смесь всех трех? Для решения этой проблемы Верес использовал контекстную информацию: например, сравнивал дату рождения каждого Уинстона Черчилля с датой появления n-грама, с учетом того, что страница в «Википедии» с названием Winston Churchill относится по умолчанию к Winston1874, и того, что Winston1874 просматривается в «Википедии» значительно большее число раз, чем остальные кандидаты с тем же именем. Эти и другие критерии были применены в отношении сотен тысяч имен. Подробнее об этом см. Michel2011S.

129

См. Michel2011, Michel2011S.

130

Полный список 25 наиболее знаменитых людей, родившихся между 1800 и 1920 годами, в каждой из областей деятельности приведен в Michel2011S. В нем содержатся имена Марии Кюри (1867, ученый), Марселя Дюшана (1887, художник), Клода Шеннона (1916, математик), Хамфри Богарта (1899, актер), Вирджинии Вулф (1882, писатель) и Уинстона Черчилля (1874, политик).

131

Изучение славы представляет собой уже сформировавшуюся область социологии. См. Braudy Leo. The Frenzy of Renown: Fame and Its History. Oxford: Oxford University Press, 1986; Lieberson Stanley. A Matter of Taste: How Names, Fashions, and Culture Change. New Haven, CT: Yale University Press, 2000.

132

По всей видимости, авторы не были знакомы с современными историческими изысканиями, затрагивающими проблему количества жертв репрессий в период с 1921 по 1953 г. Согласно данным рассекреченных архивов, за контрреволюционные преступления было осуждено 3 777 380 человек, в том числе к высшей мере наказания – 642 980 человек, к содержанию в лагерях и тюрьмах на срок от 25 лет и меньше – 2 369 220, в ссылку и высылку – 765 180 человек (письмо генерального прокурора СССР Р. А. Руденко, министра внутренних дел СССР С. Н. Круглова и министра юстиции СССР К. П. Горшенина секретарю ЦК КПСС Н. С. Хрущеву о пересмотре дел на лиц, осужденных за контрреволюционные преступления. 1 февраля 1954. ГА РФ. Ф.Р.-9401. Оп. 2. Д. 450. Л. 3065). См. также: Земсков В. Н. Заключенные в 1930-е годы: социально-демографические проблемы // Отечественная история. 1997, № 4; Дугин А. Сталинизм: легенды и факты // Слово. 1990, № 7. С. 23 (Прим. ред.).

133

См. Sage Mark. Chapman Shot Lennon to «Steal His Fame» // Irish Examiner (19 октября 2004 г.), доступно в сети Интернет: http://goo.gl/pLXl51. Не так давно возникли серьезные споры после того, как журнал Rolling Stone разместил на своей обложке фото одного из бостонских террористов, Джохара Царнаева. См. Reitman Janet. Jahar’s World // Rolling Stone (17 июля 2013 г.), доступно в сети Интернет: http://goo.gl/fyc8y.

134

Поднимите руку, если вы знали, что третьего астронавта в этой миссии – летавшего вокруг Луны в командном модуле, пока Армстронг и Олдрин были на поверхности, – звали Майкл Коллинз.

135

См. Heine Heinrich. Almansor // (ed. C.A. Buchheim) Heinrich Heine’s Gesammelte Werke. Berlin: G. Grote, 1887. В наши дни эти строки можно увидеть на мемориале, созданном Михой Ульманом на площади Бебельплатц в Берлине – на месте, где во время сожжения книг в 1933 году Йозеф Геббельс руководил действиями толпы, уничтожившей более 20 тысяч книг. Мемориал представляет собой полупрозрачную панель, сквозь которую зрителям видны ряды пустых книжных полок, где могли бы расположиться 20 тысяч книг. Изображение мемориальной таблички можно увидеть по адресу: http://goo.gl/SYzu4 (в версии текста на монументе содержится орфографическая ошибка).

136

Черновик письма, изменения в который были внесены одним из помощников Келлер, позволяет погрузиться в детали процесса редактирования, приведшего к появлению окончательной версии. Письмо находится в коллекции американского Фонда слепых, а его изображение можно увидеть в статье Selsdon Helen. Helen Keller’s Words: 80 Years Later… Still as Powerful // American Foundation for the Blind (9 мая 2013 г.), доступно в сети Интернет: http://goo.gl/uSSE8. Правки в письме обсуждаются в статье: Onion Rebecca. God Sleepeth Not’: Helen Keller’s Blistering Letter to Book-Burning German Students // Slate (16 мая 2013 г.), доступно в сети Интернет: http://goo.gl/SxdG2.

137

См. Gregorian V. (ed.). Censorship: 500 Years of Conflict. New York: New York Public Library, 1984.

138

См. Baal-Teshuva Jacob. Chagall: 1887–1985. Cologne, Germany: Taschen, 2003. P. 16.

139

Хотя принятое художником имя «Марк Шагал» уже было хорошо известно к 1910 году, ранее его знали и под другими именами – Мойше Хацелев, Марк Захарович, Мойше Шагалов. См. Harshav Benjamin. Marc Chagall and His Times: A Documentary Narrative. Palo Alto, CA: Stanford University Press, 2004. P. 63. Интересные книги о его жизни и работе: Baal-Teshuva, см. выше; Wullschlager Jackie. Chagall: A Biography. New York: Alfred A. Knopf, 2008; Chagall Marc. The Jerusalem Windows. New York: George Braziller, 1967; Chagall Marc. My Life. New York: Da Capo Press, 1994.

140

См. Hughes Robert. Fiddler on the Roof of Modernism // Time (24 июня 2001), доступно в сети Интернет: http://goo.gl/aFMsU.

141

См. Gilot Françoise, Lake Carlton. Life with Picasso. New York: McGraw-Hill, 1964. P. 258. (Рус. изд.: Лейк К., Жило Ф. Моя жизнь с Пикассо. М.: ОЛМА-Пресс, 2001.) Жило была любовницей и музой Пикассо. Она отмечает, что, несмотря на разногласия с Шагалом, Пикассо очень уважал его творчество. Полная цитата звучит так: «После смерти Матисса Шагал останется единственным художником, понимающим, что такое цвет. Я не в восторге от всех этих петухов, ослов, летающих скрипачей и прочего фольклора, но его полотна поистине написаны, а не просто скомпонованы. Некоторые из его последних вещей, сделанных в Вансе, убеждают меня, что никто после Ренуара не чувствовал света так, как Шагал».

142

См. Wullschlager, р. 223.

143

Письма Марка Шагала Павлу Эттингеру (1920–1948) / Публ. А. С. Шатских // Сообщения Государственного музея изобразительных искусств им. А. С. Пушкина. Вып. 6. М.: Советский художник, 1980. С. 199–200.

Назад: Примечания
Дальше: Примечания