35. Библиотека Менделя: чрезвычайно большое и исчезающе малое
Крейг Вентер и другие ученые уже секвенировали геном человека, но что это значит? Разве ДНК каждого человека не уникальна? Да, уникальна, причем настолько, что даже маленького фрагмента ДНК, обнаруженного на месте преступления, достаточно, чтобы идентифицировать преступника с вероятностью 99 процентов. И в то же время ДНК людей настолько похожи, что ученые могут отличать их от ДНК других видов, имея лишь фрагменты полного генома. Как это возможно? Как ДНК людей могут быть настолько уникальными и в то же время настолько похожими? Чтобы понять этот удивительный факт, можно сравнить ДНК с текстами книг. Аргентинский писатель Хорхе Луис Борхес (1962) сочинил для нас рассказ “Вавилонская библиотека”, в котором наглядно иллюстрируется возможность сосуществования столь разительных различий и сходств. Борхес описывает тщетные исследования и размышления людей, которые живут в огромном хранилище книг, структурированном на манер пчелиного улья: книжные полки тянутся по стенам тысяч (или миллионов, или миллиардов) соединенных коридорами шестигранных галерей. Стоя у перил вентиляционного колодца, никто не может разглядеть ни пола, ни потолка. И никто никогда не находил галерею, которая не была бы окружена шестью другими. Люди гадают, бесконечно ли это хранилище. В конце концов они решают, что это не так, но оно может быть и бесконечным, поскольку на полках, похоже, стоят все возможные книги – увы, без какого-либо порядка.
Допустим, в каждой книге пятьсот страниц, на каждой странице сорок строк, а в каждой строке пятьдесят знаков, то есть на странице умещается две тысячи знаков. Каждый знак – это либо пробел, либо один из ста символов (прописные и строчные буквы английского и других европейских языков, пробел и знаки препинания). Где-то в Вавилонской библиотеке есть книга, все страницы которой абсолютно чисты, а где-то есть книга, все страницы которой заполнены вопросительными знаками, но в подавляющем большинстве книг содержится абракадабра – в библиотеку попадают абсолютно любые книги, без оглядки на орфографию и пунктуацию, не говоря уже о смысле. Пятьсот страниц, помноженные на две тысячи знаков на страницу, дают нам миллион знаков на книгу, так что, если мы решим наполнить книги всеми возможными комбинациями знаков, в Вавилонской библиотеке окажется 1001 000 000 различных книг. По оценкам, в наблюдаемой нами части вселенной содержится всего (плюс-минус) 10040 частиц (протонов, нейтронов и электронов), а следовательно, существование Вавилонской библиотеки физически совершенно невозможно, но благодаря четким правилам, в соответствии с которыми Борхес построил ее в своем воображении, мы можем с полной ясностью о ней размышлять.
Правда ли в ней хранятся все возможные книги? Очевидно нет, поскольку они должны быть напечатаны с использованием “только” ста различных символов, исключая, как можно полагать, символы греческого, русского, арабского и китайского алфавитов, из-за чего в библиотеке нет огромного количества важнейших настоящих книг. Само собой, в библиотеке есть их блестящие переводы на английский, французский, немецкий, итальянский и другие языки, а также бесконечное число низкопробных переводов каждой из книг. При этом в библиотеке есть книги, в которых более пятисот страниц, но их текст начинается в одном томе и продолжается в других без перерыва.
Некоторые книги, хранящиеся в Вавилонской библиотеке, могут быть весьма любопытны. Среди них ваша лучшая, самая точная 500-страничная биография, в которой ваша жизнь описывается с рождения и до самой смерти. Обнаружить ее, однако, будет практически невозможно, поскольку в библиотеке также хранится огромное множество книг, в которых ваша биография предельно точно излагается до десятого, двадцатого, тридцатого, сорокового и т. д. дня рождения, но последующие события вашей жизни описываются совершенно неправильно – огромным множеством нетривиальных способов. Но крайне маловероятно, что в этом огромном книгохранилище вообще удастся обнаружить хотя бы одну читабельную книгу.
Нам нужно ввести несколько терминов для фигурирующих здесь величин. Вавилонская библиотека не бесконечна, так что шанс найти в ней что-нибудь интересное в буквальном смысле не бесконечно мал. Эти слова преувеличивают ситуацию знакомым нам образом, но их стоит избегать. К несчастью, ни одна стандартная метафора – астрономические числа, иголка в стоге сена, капля в море – не справляется с описанием этой библиотеки. Ни одну настоящую астрономическую величину (такую, как число элементарных частиц во вселенной или количество наносекунд, прошедших с момента Большого взрыва) даже не разглядеть на фоне этих огромных, но конечных чисел. Если бы найти читабельную книгу в Вавилонской библиотеке было столь же просто, как найти конкретную каплю в море, мы бы и в ус не дули! Но если нас забросят в случайную галерею библиотеки, наши шансы обнаружить книгу, в которой будет хотя бы одна грамматически верная фраза, настолько исчезающе малы, что можно даже написать это понятие с большой буквы “И”, а также ввести сопутствующее понятие “Чрезвычайно велики”, означающее “гораздо больше астрономических”.
Вот другой способ осознать, как невероятно велика Вавилонская библиотека. Как мы только что заметили, лишь Исчезающе малое подмножество книг составлено из английских слов. Само по себе это подмножество Чрезвычайно велико, а в Исчезающе малое подмножество внутри него входят книги, где слова выстраиваются в грамматически верные фразы (Чрезвычайно большое подмножество при этом составляют книги, содержащие цепочки слов наподобие “хороший из Париж помощь легка с от который тем не менее демократия стриптиз тигры”.) Чрезвычайно большое, но Исчезающе малое подмножество грамматически верных книг составляют книги, где фразы последовательно связаны друг с другом (в остальных книгах содержатся фразы, которые, возможно, случайным образом выбраны из книг на грамматически верном английском.) Чрезвычайно большое, но Исчезающе малое подмножество этих осмысленных книг составляют книги о человеке по имени Джон, а Чрезвычайно большое, но Исчезающе малое подмножество этих книг повествует об убийстве Джона Ф. Кеннеди, и все еще Чрезвычайно большое (но Исчезающе малое) подмножество этих книг говорит правду – и Чрезвычайно большое, но Исчезающе малое подмножество этих правдивых книг об убийстве Кеннеди написано лимериками! Да, количество возможных правдивых книг о гибели Кеннеди, написанных лимериками, превосходит число книг в Библиотеке Конгресса! Вероятнее всего, ни одна из них не была опубликована, но это и к лучшему.
В Вавилонской библиотеке хранится экземпляр “Моби Дика”, но в ней хранится и 100 000 000 экземпляров-мутантов, которые отличаются от канонического “Моби Дика” одной-единственной опечаткой. Это еще не Чрезвычайно большое число, но оно стремительно растет, когда мы прибавляем экземпляры, отличающиеся двумя опечатками, десятью или тысячей. Даже экземпляр с тысячей опечаток – в среднем по две на страницу – будет безошибочно распознаваться как “Моби Дик”, а количество таких экземпляров чрезвычайно велико. Неважно, какой из них вы найдете, если найдете хотя бы один из них! Во всех них содержится одна и та же история, не считая поистине незначительных – почти незаметных – отличий, и читать почти любой из них будет наслаждением. И все же не любой. Порой единственная опечатка в важном месте может стать роковой. Еще один склонный к философствованиям писатель Питер Де Врис однажды опубликовал роман, начинавшийся словами:
“Зовите меня, Измаил”.
На что способна единственная запятая! Представьте другие мутировавшие экземпляры, начинающиеся словами “Ловите меня Измаил”.
В рассказе Борхеса книги стоят на полках беспорядочно, но даже если бы они оказались выстроены по алфавиту, мы столкнулись бы с неразрешимыми проблемами при поиске той самой книги, которую мы ищем (к примеру, “базовой” версии “Моби Дика”). Представьте, что вы летите на звездолете по галактике Моби Дика в Вавилонской библиотеке. Эта галактика сама по себе Чрезвычайно больше всей физической вселенной, так что, куда бы вы ни отправились, даже если вы летите со скоростью света, веками вам будут попадаться лишь практически неотличимые друг от друга копии “Моби Дика”. Вы ни разу не наткнетесь ни на что другое. “Дэвид Копперфилд” в этом пространстве невообразимо далек, даже если нам известно, что есть путь – кратчайший путь, не считая огромного множества других путей, – ведущий от одной великой книги к другой посредством единичных типографских изменений. (Оказавшись на этом пути и оглядевшись, вы вряд ли сумеете сказать, в какую сторону двигаться к “Дэвиду Копперфилду”», даже если будете держать в руках обе книги.)
Иными словами, это логическое пространство так Чрезмерно велико, что многие наши обычные представления о местоположении, о поиске и обнаружении искомого и прочих подобных простых и практических действиях не имеют в нем непосредственного применения. Борхес расставил книги на полках в произвольном порядке и сделал на основании этого несколько превосходных наблюдений, но только представьте, с каким количеством проблем он столкнулся бы, если бы попробовал расставить их по алфавиту. Поскольку (в нашей версии) всего сто различных алфавитных символов, можно считать определенную их последовательность алфавитным порядком, например a, A, b, B, c, C… z, Z,?!), (, %… à, â, è, ê, é… Затем можно разместить все книги, которые начинаются на один и тот же символ, на одном этаже. Теперь в нашей библиотеке всего сто этажей, а это меньше, чем в Сирс-тауэр (или Уиллис-тауэр) в Чикаго. Каждый этаж можно разделить на сто коридоров, в каждом из которых мы разместим книги, второй символ которых – следующий по алфавиту. В каждом коридоре можно разместить сто полок, по одной для каждого из третьих символов. Таким образом, все книги, которые начинаются со слов aardvarks love Mozart – и сколько таких книг! – окажутся на одной полке (полке “r”) в первом коридоре на первом этаже. Но эта полка огромна, поэтому нам, возможно, лучше разместить книги в картотечных ящиках, стоящих под прямыми углами к полке, по одному ящику для каждого четвертого символа. В таком случае каждая полка будет, скажем, не более сотни футов длиной. Но теперь ужасно глубокими станут картотечные ящики, которые будут упираться в ящики соседнего коридора, поэтому… но у нас закончились измерения для расстановки книг. Чтобы расставить все книги аккуратно, нам нужно пространство с миллионом измерений, каждое из которых будет располагаться “под прямым углом” ко всем другим. Такие пространства называются гиперпространствами – о них можно помыслить, но визуализировать их нельзя. Ученые постоянно используют их, чтобы представить свои теории. Геометрия таких пространств (даже если считать их только воображаемыми) стабильна и хорошо изучена математиками. В рамках этих логических пространств можно с уверенностью говорить о местоположениях, путях, траекториях, объемах (гиперобъемах), расстояниях и направлениях.
Теперь мы готовы рассмотреть вариацию на тему Борхеса, которую я назову библиотекой Менделя. В этой библиотеке хранятся “все возможные геномы” – последовательности ДНК. В книге “Слепой часовщик” (1986) Ричард Докинз описывает подобное пространство, которое называет Страной Биоморфов. Меня вдохновили именно его рассуждения, и наши представления полностью совместимы, однако я хочу подчеркнуть некоторые аспекты, на которых он не стал заострять внимание.
Если считать, что в библиотеке Менделя хранятся описания геномов, то она представляет собой часть Вавилонской библиотеки. Стандартный код описания ДНК включает в себя всего четыре символа, A, C, G и T (обозначающие аденин, цитозин, гуанин и тимин – четыре типа нуклеотидов). Следовательно, все 500-страничные вариации последовательностей этих четырех букв уже хранятся в Вавилонской библиотеке. Типичные геномы, однако, гораздо длиннее обычных книг. В человеческий геном входит примерно три миллиарда нуклеотидов, так что исчерпывающее описание генома одного человека – например, вашего – заняло бы примерно три тысячи 500-страничных книг из Вавилонской библиотеки.
Сравнение человеческого генома с объемами галактики “Моби Дика” помогает нам объяснить различие и сходство человеческих геномов. Как можно говорить о секвенировании (копировании) генома человека в целом, если все геномы человека отличаются друг от друга не в одном, а в тысячах мест (локусов на языке генетики)? Подобно снежинкам или отпечаткам пальцев, два подлинных человеческих генома не могут быть в точности одинаковыми, включая даже геномы идентичных близнецов (случайные ошибки могут вкрасться даже в клетки одного человека). Человеческая ДНК легко отличима от ДНК любого другого вида, даже от ДНК шимпанзе, локусы которой совпадают с человеческой на 90 процентов. Каждый подлинный геном человека, существовавший когда-либо, содержится в галактике всех возможных человеческих геномов, которая находится на Чрезвычайно большом расстоянии от галактик геномов других видов, и все же внутри галактики достаточно места, чтобы никакие два генома человека не были одинаковыми. У вас есть две версии каждого из ваших генов – от матери и от отца. Они передали вам ровно половину собственных генов, случайным образом выбранных из набора, который они получили от своих родителей, ваших бабушек и дедушек, но поскольку ваши бабушки и дедушки тоже принадлежали к виду Homo sapiens, их геномы совпадают почти в каждом локусе, так что в большинстве случаев неважно, кто из бабушек и дедушек предоставил тот или иной ваш ген. Тем не менее их геномы различаются во многих тысячах локусов, и здесь в игру вступает случай – механизм случайного выбора определяет, как каждый из ваших родителей поучаствует в формировании вашей ДНК. Более того, скорость накопления мутаций у млекопитающих составляет примерно сто штук на геном на одно поколение. “Таким образом, сотня отличий от вас и вашего супруга возникнет в генах ваших детей в результате случайных ошибок копирования, совершенных энзимами, или в результате мутаций ваших яичников или яичек, вызванных космическими лучами” (Ridley 1993, p. 45).
Описание генома лошади, капусты или осьминога будет состоять из тех же букв, A, C, G и T. Большинство геномов животных короче генома человека, но геномы некоторых растений длиннее человеческих более чем в десять раз, а геномы ряда одноклеточных амеб и того длиннее! Текущий мировой рекорд принадлежит Amoeba dubia, в геноме которой содержится около 670 миллиардов спаренных оснований, что более чем в двести раз превышает количество спаренных оснований в геноме человека. Однако допустим – своевольно, – что в библиотеке Менделя содержатся все цепочки ДНК, описанные в 3000-томных изданиях, включающих только четыре упомянутых символа. Этого количества “возможных” геномов будет достаточно для любых серьезных теоретических целей.
Я преувеличил, сказав, что в библиотеке Менделя содержатся “все возможные геномы”. Подобно тому как в Вавилонской библиотеке не нашлось места для русского и китайского языков, библиотека Менделя игнорирует (очевидную) возможность существования альтернативных генетических алфавитов, например основанных на других химических составляющих. Таким образом, любые выводы относительно того, что возможно в этой библиотеке Менделя, придется пересмотреть, когда мы попробуем применить их к более широкому представлению о возможном. Это скорее сильная, а не слабая сторона нашей тактики, поскольку она позволяет нам внимательно следить за тем, о какой именно скромной, ограниченной возможности идет речь.
Одна из важных характеристик ДНК – примерно одинаковая химическая стабильность любых пермутаций последовательностей аденина, цитозина, гуанина и тимина. В принципе, любая из них может быть сконструирована в сплайсинговой лаборатории и впоследствии храниться неопределенное количество времени, как книга в библиотеке. Но не каждая такая последовательность из библиотеки Менделя соответствует жизнеспособному организму. Большинство последовательностей ДНК – и это большинство Чрезвычайно велико – представляет собой абракадабру, рецепты, по которым не создать живой организм. Все наблюдаемые геномы, в действительности существующие сегодня, родились в результате миллиардов лет поправок и пересмотров в ходе бездумного редактирования, эффективность которого достигается за счет того, что большая часть абракадабры (за исключением Исчезающе малого множества осмысленного, применимого “текста”) автоматически отбрасывалась, в то время как остальное без конца использовалось снова и снова, подвергаясь копированию огромное множество раз. В вашем теле в эту минуту содержится более триллиона копий вашего генома, одна на каждую человеческую клетку, и каждый день по мере возникновения новых клеток кожи, кости и крови в них внедряются новые копии вашего генома. Текст, который можно скопировать – потому что он содержится в действующем механизме, живой клетке, – копируется. Остальное исчезает. Публикуй или погибнешь.