Книга: Информация. История. Теория. Поток
Назад: Глава 6. НОВЫЕ ПРОВОДА, НОВАЯ ЛОГИКА. Ни одна другая вещь не окружена такой завесой тайны
Дальше: Глава 8. ИНФОРМАЦИОННЫЙ ПОВОРОТ. Основа, на которой построен мозг

Глава 7. ТЕОРИЯ ИНФОРМАЦИИ. (Все, что мне нужно, — обыкновенный мозг)

Наверное, появление теории информации и ее развитие немного похожи на стороительство трансконтинентальной железной дороги.
Вы можете начать с востока, пытаясь понять, как операторы обрабатывают все что угодно, и направиться на запад. Или вы можете начать с запада, попытавшись понять, что такое информация, и затем направиться на восток. Остается надеяться, что эти пути пересекутся.
Джон Барвайз (1986)

 

В начале 1943 года, в самый разгар войны, два похоже мыслящих человека, Клод Шеннон и Алан Тьюринг, ежедневно встречались за чаем в кафетерии Лабораторий Белла и ни слова не говорили о своей работе. Работа была засекречена — оба занимались криптоанализом. Само присутствие Тьюринга в Лабораториях было своего рода тайной. Он приплыл в Америку на “Королеве Елизавете”, которая шла зигзагами, уходя от немецких подлодок. Лишь немногие знали, что совсем недавно в Англии, в Блетчли-парк, Тьюрингу удалось расшифровать “Энигму” — код, который использовался вермахтом для самых важных сообщений (в том числе для переговоров с подлодками). Шеннон работал над секретной радиотелефонной связью X-System, которая применялась для шифровки разговоров между Франклином Д. Рузвельтом в Пентагоне и Уинстоном Черчиллем в подземном командном центре. Работала она так: сначала выделялись моментальные значения аналогового голосового сигнала, по пятьдесят за секунду, то есть происходил процесс “квантования”, или “дискретизации”, сигнала, затем они маскировались с помощью псевдошумового сигнала, который был очень похож на помехи на линии, хорошо знакомые инженерам. Шеннон не разрабатывал систему, его пригласили проанализировать ее и доказать теоретически — по крайней мере на это была надежда, — что она не может быть взломана. Он выполнил эту задачу. Позже стало ясно, что оба эти человека, каждый на своем берегу Атлантики, сделали для превращения криптографии из искусства в науку больше, чем кто-либо, но пока шифровальщики и дешифровщики не разговаривали друг с другом.
Они не обсуждали конкретные проекты, которыми занимались, однако Тьюринг показал Шеннону написанную семь лет назад статью “О вычислимых числах” о возможностях и ограничениях идеальной вычислительной машины. Они говорили на другую тему, которая также оказалась близка обоим, — о том, как научить машины думать. Шеннон предложил ввести “явления, связанные с культурой”, такие как музыка, в электронный мозг, и они стали излагать друг другу невероятные идеи. Однажды Тьюринг воскликнул: “Нет, я не хочу создавать мощный мозг. Все, что мне нужно, — обыкновенный мозг, что-то вроде мозга президента Американской телефонной и телеграфной компании”. В 1943 году, когда ни транзистор, ни электронный компьютер еще не появились, рассуждения о думающих машинах выглядели слишком самонадеянно. Но на самом деле мечты Тьюринга и Шеннона не имели отношения к электронике, это была логическая задача.
Может ли машина думать? Вопрос с короткой и немного странной историей — странной, потому что машины представляли собой физический объект. Чарльз Бэббидж и Ада Лавлейс стояли у истоков данного представления, хотя их идеи были практически забыты. Но теперь об этом задумался Алан Тьюринг и сделал нечто действительно странное: придумал машину с идеальными возможностями в области мышления и показал, чего она сделать не может. Его машины не существовало (хотя сейчас ее можно встретить повсюду). Это был всего лишь мысленный эксперимент.
Рядом с вопросом, что может делать машина, располагался еще один: какие задачи можно считать механическими (старое слово с новым значением). Теперь, когда машины могли играть музыку, фиксировать изображение, нацеливать зенитные орудия, соединять телефонные вызовы, управлять сборочными линиями и выполнять математические расчеты, это слово уже не казалось таким уничижительным. Но лишь недалекие и суеверные люди наделяли машины способностями к творчеству, оригинальному мышлению или спонтанному поведению; такие качества были противоположны механическому, что означало автоматическое, определенное и последовательное. Идея пригодилась философам. Примером интеллектуального объекта, который можно назвать механическим, стал алгоритм: еще один новый термин для чего-то, что существовало всегда (рецепт, набор инструкций, пошаговая процедура), но теперь требовало формального признания. Бэббидж и Лавлейс занимались алгоритмами, не называя их. XX век отвел алгоритмам центральную роль, и они сразу включились в игру.
Тьюринг был аспирантом и недавним выпускником Кингс-колледжа Кембриджа, когда в 1936 году представил статью о вычислимых числах своему профессору. Полное название заканчивалось причудливым немецким словом — оно звучало так: On Computable Numbers, with an Application to the Entscheidungs-problem (“О вычислимых числах в применении к проблеме разрешимости”). “Проблему разрешимости” поставил Давид Гильберт на Международном конгрессе математиков в 1928 году. Пожалуй, самый влиятельный математик своего времени, Гильберт, как Рассел и Уайтхед, горячо верил в задачу постановки всей математики на прочную логическую платформу — In der Mathematik gibt es kein Ignorabimus (“В математике нет места “мы не узнаем”), объявил он. Конечно, в математике было много нерешенных задач, некоторые из них известны, такие как Последняя (Великая) теорема Ферма и проблема Гольдбаха, — утверждения, которые казались истинными, но не были доказаны. Не были доказаны пока что, думало большинство людей. Предполагалось — и многие верили, — что любая математическая истина когда-нибудь будет доказана.
Проблема разрешимости заключалась в нахождении строгой пошаговой процедуры, с помощью которой, имея формальный язык дедуктивных рассуждений, можно автоматически получить доказательство. Возрожденная мечта Лейбница — выражение всех допустимых рассуждений с помощью механических правил. Гильберт поставил ее в форме вопроса, но он был оптимистом. Он думал, что знает ответ. И в этот решающий для математики и логики момент появилась теорема Геделя о неполноте. Казалось, она должна охладить оптимизм Гильберта, так же как опровергла построения Рассела. Но Гедель на самом деле оставил проблему разрешимости без ответа. Гильберт выделил три вопроса:
Является ли математика полной?
Является ли математика непротиворечивой?
Является ли математика разрешимой?
Гедель показал, что математика не может быть одновременно полной и непротиворечивой, но не ответил на третий вопрос — или по крайней мере ответил не для всей математики. Даже если определенная замкнутая система формальной логики должна содержать утверждения, которые невозможно ни доказать, ни опровергнуть изнутри системы, вероятно, это может быть разрешено, как и получилось, внешним арбитром — внешней логикой или правилами.
Двадцатидвухлетний Алан Тьюринг, незнакомый с большей частью литературы по предмету, стремящийся к одиночеству настолько, что его профессор волновался, что он станет “настоящим отшельником”, поставил, казалось бы, совершенно другой вопрос: все ли числа вычислимы? Неожиданный вопрос, вряд ли кто-то рассматривал идею о «евычислимом числе. Большая часть чисел, с которыми работают люди, вычислимы по определению. Рациональное число вычислимо, потому что может быть выражено как частное двух целых чисел a/b. Алгебраические числа вычислимы, потому что являются корнями алгебраических уравнений. Знаменитые числа, такие как π и е, тоже вычислимы, люди вычисляют их постоянно. Тем не менее Тьюринг утверждал, что существуют числа, которые можно как-то назвать, определить, однако вычислить нельзя.
Что это значило? Он определил вычислимое число как число, чье десятичное представление может быть получено конечным набором действий. “Обоснование, — утверждал он, — заключается в том факте, что человеческая память по необходимости ограниченна”. Он также определил вычисления как механическую процедуру, алгоритм. Люди решают задачи с помощью интуиции, воображения, вспышек озарения, то есть сомнительными немеханическими способами, или опять-таки с помощью вычислений, этапы которых скрыты. Тьюрингу надо было исключить невыразимое. Он спросил себя: что бы сделала машина? И ответил: “Согласно моему определению, число является вычислимым, если его десятичное представление может быть записано машиной”.
Не было машины, которая могла бы предложить соответствующую модель. “Компьютеры” в то время были людьми, практически все вычисления выполнялись на бумаге. Для начала у Тьюринга имелась пишущая машинка. В одиннадцать лет он думал, что изобрел ее. “Понимаете, — писал он родителям из школы-интерната, — забавные маленькие кружки, вырезанные буквы, скользят к круглой А вдоль чернильной подушки и отпечатывают на бумаге букву, хотя это далеко не все”. Конечно, пишущая машинка — не автоматическая конструкция, это инструмент, а не машина. Она не переносит речь на бумагу, скорее, страница шаг за шагом перемещается под молоточком, который отпечатывает букву за буквой. Основываясь на такой модели, Тьюринг представил себе машину высшей чистоты и простоты. Поскольку она была воображаемой, не возникало затруднений, связанных с реальными условиями, которые пришлось бы учитывать, составляя чертеж, инженерную спецификацию или заявку на патент. Тьюринг, как и Бэббидж, задумал машину для вычисления, но ему не надо было беспокоиться о медных или железных деталях. Тьюринг и не собирался строить свою машину.
Он перечислил те немногие элементы, которые должны были быть в его машине: лента, символы и состояния. Каждый из этих элементов нуждался в определении.
Лента в машине Тьюринга выполняет ту же функцию, что и бумага в пишущей машинке. Но если в пишущей машинке лист перемещается в двух направлениях, влево и вверх, то машина Тьюринга использовала только одно, поэтому и нужна была лента — длинная полоска, разделенная на квадраты (ячейки). “В элементарной арифметике иногда используют двухмерное свойство бумаги, — писал ученый. — Но этого всегда можно избежать, и, я думаю, стоит согласиться с тем, что двухмерность бумаги не является необходимым условием при вычислении”. Лента считается бесконечной: всегда, если нужно, найдется еще место. Но “внутри машины” в каждый момент времени находится лишь один квадрат. Лента (или машина) может двигаться влево или вправо, к следующему квадрату.
Символы могут быть записаны на ленту, по одному в каждой ячейке. Сколько символов можно использовать? Ответ на этот вопрос потребовал некоторых размышлений, чтобы убедиться: количество символов конечно. Тьюринг отметил, что слова, по крайней мере в европейских языках, ведут себя как символы. Китайцы, писал он, “движутся к несчетной бесконечности символов”. Арабские цифры тоже можно считать бесконечным множеством символов, если, например, рассматривать числа 17 или 999,999,999,999,999 как один символ. Но Тьюринг решил рассматривать их как составные символы: “Всегда можно вместо одного символа использовать последовательность”. И, так как машина создавалась по принципу минимализма, Тьюринг предпочел абсолютный минимум из двух символов — двоичную запись, нули и единицы. Символы не только записывались на ленту, они могли и читаться с нее — Тьюринг использовал слово “сканироваться”. В реальности, конечно, еще не было технологии, которая могла сканировать написанные на бумаге символы обратно в машину, но существовали похожие процедуры: например, в табуляторах информация с перфокарт переносилась на бумагу. Тьюринг ввел еще одно ограничение: в каждый момент времени машина “знает” (для описания могло подойти лишь антропоморфное слово) только об одном символе — о том, который находится в единственной ячейке внутри машины.
Состояния требовали более подробных объяснений. Тьюринг использовал слово “конфигурации” и указывал, что они напоминали “состояния ума”. Машина может находиться в нескольких состояниях, их число конечно. В любом данном состоянии машина предпринимает одно или несколько действий в зависимости от символа. Например, в состоянии а машина может подвинуться на ячейку вправо, если текущий символ 1, или на ячейку влево, если текущий символ 0, или напечатать 1, если символа нет (ячейка заполнена “пробелом”). В состоянии b машина может стереть текущий символ. В состоянии c, если символ 0 или 1, машина может сдвинуться вправо, в противном случае — остановиться. После каждого действия машина оказывается в новом состоянии, которое может быть таким же или другим. Различные состояния, используемые для данного вычисления, хранились в таблице, и неважно, как это должно было осуществляться физически. Фактически таблица состояний была набором инструкций для машины. И все.
Тьюринг программировал свою машину, хотя пока и не использовал этого слова. С помощью примитивных действий — передвижения, печати, стирания, изменения состояния и остановки — строились более сложные задачи, которые использовались снова и снова: “копирование последовательности символов, сравнение последовательностей, уничтожение всех символов определенной формы и т.д.” Машина способна видеть только один символ в каждый момент времени, но часть ленты можно использовать для временного хранения информации. Как говорил Тьюринг, “некоторые записанные символы... являются просто заметками “в помощь памяти”. Лента, разматывавшаяся до горизонта и дальше, представляла собой неограниченное хранилище. Именно поэтому машине была доступна вся арифметика. Тьюринг показал, как сложить два числа, то есть написал необходимую для этого таблицу состояний. Он показал, как заставить машину печатать (бесконечно) двоичное представление числа п. Он потратил значительное время, чтобы понять, что машина способна сделать и как она будет выполнять определенные задачи. Он продемонстрировал, что этот список покрывает всю деятельность человека при вычислении числа. Не требовалось больше никаких знаний или интуиции. Все, что можно было вычислить, могла вычислить и эта машина.
А потом пришло время финального штриха. Машины Тьюринга, сокращенные до конечной таблицы состояний и конечного набора вводимых символов, сами могли быть представлены числами. Каждая из возможных таблиц состояний, соединенная с ее первоначальной лентой, представляла собой отдельную машину. Следовательно, каждая машина сама могла быть описана определенным числом — определенной таблицей состояний вместе с начальной лентой. Тьюринг кодировал свои машины точно так же, как Гедель кодировал язык символической логики. Это устраняло различие между данными и инструкциями: в конце концов, и то и другое было числами. Для каждого вычислимого числа должно существовать машинное число.
Тьюринг создал (все еще в уме) версию машины, которая могла представить любую другую возможную цифровую вычислительную машину. Он назвал ее машиной U, от universal (универсальная), и математики гордо пользуются названием U по сей день. Эта машина в качестве ввода берет машинные числа. То есть читает описания других машин со своей ленты — их алгоритмы, их собственный ввод. Неважно, насколько сложным мог стать цифровой компьютер, — его описание можно было записать на ленту, которую прочитает U. Если задача может быть решена цифровой вычислительной машиной, записана символами и решена алгоритмически, универсальная машина тоже могла ее решить.
Теперь микроскоп сам оказался предметом исследования. Машина Тьюринга занялась проверкой каждого числа, чтобы выяснить, соответствует ли оно вычислимому алгоритму. Некоторые числа окажутся вычислимыми. Некоторые могут оказаться невычислимыми. И еще была третья возможность — та, которая интересовала Тьюринга больше остальных. Некоторые алгоритмы могли обмануть проверяющего и заставляли машину работать, заниматься загадочным делом, никогда не останавливаясь, никогда не повторяясь очевидным образом и оставляя наблюдателя в неведении относительно того, остановится ли она вообще.
К этому моменту аргументы Тьюринга, опубликованные в 1936 году, представляли собой сложнейший шедевр, состоящий из рекурсивных определений, символов, придуманных, чтобы представлять другие символы, чисел, замещающих другие числа, таблиц состояний, алгоритмов, машин. На бумаге это выглядело так:
Объединив машины D и U, мы можем сконструировать машину M для расчета последовательности. Машине D может потребоваться лента. Мы можем предположить, что она использует E-ячейки после того, как заполнит символами F-ячейки, и что, когда она вынесет свой вердикт, черновая работа, выполненная D, стирается... Далее мы способны показать, что не может существовать машины E, которая, получив стандартное описание произвольной машины M, определит, напечатает ли когда-либо M заданный символ (например, 0).
Не многие были способны это понять. Это казалось (и было) парадоксальным, но Тьюринг доказал, что некоторые числа невычислимы. (На самом деле невычислимо большинство чисел.)
Одновременно, поскольку каждое число соответствовало закодированному утверждению математики и логики, Тьюринг разрешил вопрос Гилберта о том, все ли утверждения разрешимы. Он доказал, что проблема разрешимости имеет ответ, причем отрицательный. Невычислимые числа фактически являются неразрешимыми утверждениями.
Компьютер Тьюринга — фантастическая, абстрактная, целиком воображаемая машина — привел его к доказательству, параллельному доказательству Геделя. Но Тьюринг пошел дальше, определив общую идею формальной системы. Любая механическая процедура для выработки формул по существу является машиной Тьюринга. Любая формальная система, таким образом, должна иметь неразрешимые утверждения. Математика неразрешима. Неполнота следует из невычислимости.
И снова, когда числа получили возможность кодировать поведение самой машины, ожили парадоксы. Это неизбежный рекурсивный поворот. То, что вычисляют, теснейшим образом переплетено с тем, что производит эти вычисления. Впоследствии Дуглас Хофштадтер говорил об этом так: “Все зависит от останавливающегося контролера, пытающегося предсказать собственное поведение, глядя на самого себя, пытающегося предсказать собственное поведение, глядя на самого себя, пытающегося предсказать собственное поведение... ” В физике тоже появилась похожая дилемма — принцип неопределенности Вернера Гейзенберга. Когда Тьюринг узнал о нем, он выразил его в терминах самоопределения: “В науке было принято считать, что если о Вселенной все известно в какой-то момент времени, то мы можем предсказать, что так и будет в будущем... Более современная наука пришла к выводу, что, когда мы имеем дело с атомами и электронами, мы совершенно не способны узнать точное их состояние, поскольку наши инструменты состоят из тех же атомов и электронов”.
Между аналитической машиной Бэббиджа и универсальной машиной Тьюринга, огромным и неуклюжим изобретением и элегантной нереальной абстракцией, прошло 100 лет. Тьюринг никогда не пытался быть механиком. “Можно представить себе трудолюбивого и прилежного клерка с хорошим запасом бумаги для заметок, без устали выполняющего действия согласно инструкции”, — заметил позже математик и логик Герберт Эндертон. Как и Ада Лавлейс, Тьюринг был программистом, анализирующим пошаговую логику собственного разума. Он представлял себя компьютером. Он выделял из процедур мышления их наименьшие составляющие, атомы обработки информации.
И Алан Тьюринг, и Клод Шеннон занимались кодами. Тьюринг кодировал инструкции числами, а десятичные числа — нулями и единицами. Шеннон придумал коды для генов и хромосом — реле и переключатели. Оба нашли способ описать одно множество объектов через другое: логические операторы и электрические цепи; алгебраические функции и машинные инструкции. Игра символов и идея передачи в смысле нахождения строгого соответствия между двумя множествами были их главными задачами. Идея подобного кодирования не в том, чтобы скрыть, а, напротив, в том, чтобы прояснить, обнаружить, что яблоки и апельсины эквивалентны, а если не эквивалентны, то взаимозаменяемы. Но война заставила обоих ученых заниматься другим типом кодирования — криптографией.
Мать Тьюринга часто спрашивала его, какую пользу могут принести его занятия математикой, и в 1936 году он сказал ей, что нашел возможное применение своим исследованиям: “Множество специальных и интересных шифров”. Он добавил: “Я думаю, что смог бы продать их правительству Ее Величества за довольно существенную сумму, но я сильно сомневаюсь, что это будет моральный поступок”. В самом деле, машина Тьюринга могла создавать шифры. Но оказалось, что у правительства другая проблема. Надвигалась война, и Государственной школе кодов и шифров, первоначально входившей в состав Адмиралтейства, пришлось заняться расшифровкой перехваченных немецких сообщений. Штат школы состоял из лингвистов, клерков и машинисток, но математиков там не было. Тьюринг попал туда летом 1938 года. Когда Школа была эвакуирована из Лондона в Блетчли-парк, загородный особняк в Букингемшире, он поехал вместе с командой, в состав которой входили в том числе несколько чемпионов по шахматам и решению кроссвордов. Такой пестрый состав не был случайным, оказалось, что классическое лингвистическое образование мало чем способно помочь в криптоанализе.
Немецкая система, названная “Энигма”, действовала по принципу полиалфавитного шифрования, которым занималась роторная машина размером с чемодан, с клавиатурой и сигнальными лампами. У “Энигмы” был знаменитый предок — шифр Виженера, который считался идеальным, пока в 1854 году его не взломал Чарльз Бэббидж. Математическая догадка Бэббиджа помогла аналитикам Блетчли-парка, так же как работа польских криптографов, которые первыми столкнулись с необходимостью расшифровки сообщений Вермахта. Работая в небольшой комнатке, известной как Hut 8, Тьюринг решил проблему не только математически, но и физически.
Это означало постройку машины, которая могла расшифровывать любые коды “Энигмы”. И если первая машина Тьюринга основывалась на теоретическом предположении о бесконечной ленте, то эта, прозванная Bombe, была объемом 90 кубических футов, с тонной проводов и металла, с подтекающим маслом и копирующими роторы немецкого устройства электрическими цепями. Научный триумф в Блетчли-парке, который оставался засекреченным на протяжении всей войны и еще тридцать лет после, имел большее влияние на исход войны, чем проект “Манхэттен”. К концу войны “Бомбы” Тьюринга расшифровывали тысячи перехваченных военных сообщений ежедневно, то есть обрабатывали информацию в доселе невиданных масштабах.
Хотя ничего из этого Тьюринг и Шеннон напрямую не обсуждали за ланчем в Лабораториях Белла, они говорили о тьюринговской идее измерения всего этого. Тьюринг наблюдал, как аналитики изучали сообщения, проходящие через Блетчли-парк, — некоторые неоднозначные, некоторые противоречивые — и пытались оценить, что это, применение конкретного шифра “Энигмы” или же координаты подлодки.
Тьюринг чувствовал — что-то здесь нуждается в математическом измерении. Это была не та вероятность, которая традиционно выражалась отношением исходов (таким как три к двум) или числом от нуля до единицы (например, 0,6 или 60%). Скорее, Тьюринга волновали данные, которые изменяли вероятность: вероятностный фактор, что-то вроде весомости улик. Он придумал единицу, которую назвал ban. Ему было удобно использовать логарифмическую шкалу, так чтобы ban’ы складывались, а не умножались. С десятичным основанием ban делал событие в десять раз более вероятным. Для тонких измерений были deciban и centiban.
Шеннону пришла в голову похожая идея. В старой штаб-квартире в Вест-Виллидж он разработал теоретические идеи криптографии, и они помогли ему сконцентрироваться на мечте, в которой он признался Вэнивару Бушу, — на мечте об “анализе некоторых фундаментальных свойств общих систем передачи знаний”. Во время войны он занимался двумя параллельными направлениями — расшифровкой и созданием кодов. Основной потребностью и то время было “спрятать информацию”. В мире чистой математики Шеннон работал с некоторыми из тех систем шифрования, что атаковал Тьюринг, — с реальными перехватами и грубым оборудованием, например с конкретным вопросом безопасности криптограмм Виженера, при условии что “противник знаком с используемой системой”. (Немцы использовали именно такие криптограммы, а британцы являлись противниками, знакомыми с системой.) Шеннон рассматривал самые общие случаи, каждый из которых включал “дискретную информацию”. То есть последовательности символов, выбранных из конечного множества, в основном буквы алфавита, но также и слова и даже “квантованную речь”, голосовые сигналы, разбитые на группы по амплитудам. Чтобы “спрятать” информацию, нужно было подставить неверные символы вместо верных, следуя некоторой процедуре, ключ которой известен получателю сообщения, и тот может использовать его для обратной подстановки. Если врагу известна сама процедура, безопасная система работает до тех пор, пока неизвестен ключ.
Дешифровщики видят поток данных, похожий на мусор, и жаждут найти настоящий сигнал. “С точки зрения криптоаналитика, — отмечал Шеннон, — секретная система почти идентична зашумленной системе связи”. (Он закончил свой отчет “Математическая теория криптографии” в 1945 году, и тот был немедленно засекречен.) Поток данных должен был выглядеть случайным или стохастическим, но, естественно, таковым не был: если бы это действительно был случайный поток, сигнал был бы потерян. Шифр должен преобразовывать нечто структурированное, чаще всего язык, во что-то на первый взгляд совершенно бессистемное. Но структура на удивление устойчива. Для анализа и классификации способов шифрования Шеннон должен был изучить структуру языка так, как ученые, например лингвисты, никогда не делали. Лингвисты, однако, уже начали заниматься строением языка — системы, которую можно обнаружить в потоке форм и звуков. Лингвист Эдвард Сепир писал о системе “символических атомов”, сформированных фонетической моделью языка. “Звуки речи, — писал он в 1921 году, — не составляют языка... суть языка лежит скорее в классификации, в формальном моделировании... Итак, язык как некая структура по своей внутренней природе есть форма мысли”. Форма мысли — изящно сказано. Шеннону, однако, нужны были термины более осязаемые и счетные.
Структура, как он ее понимал, была тем же, что и избыточность. В обычном языке избыточность необходима для понимания. В криптоанализе та же избыточность является ахиллесовой пятой. В чем же заключается эта избыточность? Простой пример из английского языка: где бы ни появлялась буква q, следующая буква u избыточна. (Или почти избыточна — она была бы полностью избыточной, если бы не редкие заимствования вроде qin и Qatar.) После q ожидается u. Она не несет информации. H после t имеет некоторую степень избыточности, потому что вероятность появления именно этой буквы наибольшая. В каждом языке есть определенная статистическая структура, доказывал Шеннон, вместе с ней наблюдается и определенная степень избыточности. Назовем это (предложил он) D: “D показывает, насколько можно сократить текст без потери информации”.
Избыточность английского языка Шеннон оценил примерно в 50%. Он не мог быть уверенным в своей оценке в отсутствие компьютеров для обработки больших массивов текста, но оценка оказалась верной. Типичные тексты могут быть сокращены примерно вполовину без потери информации. (Вспомним If u cn rd ths...) Уязвимость ранних простейших шифров, основанных на подстановках, была связана как раз с избыточностью. Эдгар Аллан По знал, что если в тексте чаще других встречается буква z, то скорее всего z подставлена вместо е, так как е — самая часто встречающаяся в английском языке буква. Как только расшифрована q, можно считать расшифрованной и u. Дешифровщик ищет повторяющиеся группы, которые могут соответствовать наиболее частотным словам или комбинациям букв: the, and, -tion. Чтобы усовершенствовать подобный частотный анализ, шифровальщикам нужно было больше информации, чем сумели получить Альфред Вейл и Сэмюэл Морзе, проанализировав наборные типографские шрифты. В любом случае более совершенные шифры избавились от этой уязвимости, постоянно меняя алфавит так, чтобы у каждой буквы было множество возможных замен. Очевидные распознаваемые структуры исчезли. Но до тех пор, пока шифровка сохраняла хоть малейшие следы схематичности — регулярность появления формы, последовательности или их статистическую вероятность, — математик теоретически мог взломать шифр.
Все секретные системы объединяет одно: использование ключа — кодового слова, фразы или целой книги или чего-то еще более сложного, то есть источника знаков, известного как получателю, так и отправителю, — знания, которым обладают оба и которое не содержится в зашифрованном сообщении. В немецкой системе “Энигма” ключ находился в самой машине и менялся ежедневно; дешифровщики в Блетчли-парк были вынуждены каждый раз заново находить его и распознавать структуры вновь преобразованного языка.
Тем временем Шеннон перешел к наиболее отдаленной, наиболее общей, наиболее теоретической идее. Секретная система состояла из конечного (хотя, вероятно, очень большого) числа возможных сообщений, конечного числа возможных криптограмм, а между ними, преобразуя одни в другие, располагалось конечное число ключей, каждому из которых соответствовала определенная вероятность появления. Схематически это выглядело так:

 

 

У противника и получателя одна цель: сообщение. Отобразив это в терминах математики и вероятностей, Шеннон смог отделить идею сообщения от его физических деталей. Звуки, колебания сигнала, обычные заботы инженеров Лабораторий Белла, не имели значения. Сообщение рассматривалось как выбор одной альтернативы из множества. В Старой северной церкви у Пола Ревере было два варианта возможных сообщений. Сейчас их количество почти невозможно было подсчитать, зато его можно было анализировать статистически.
Все еще не зная о вполне реальном и очень значимом опыте Блетчли-парка, Шеннон выстроил величественное сооружение из алгебраических методов, теорем и доказательств, которые дали криптографам то, чего у них до сих пор не было: строгий способ оценки безопасности любой секретной системы. Он разработал научные принципы криптографии. Помимо прочего, он показал, что возможны совершенные шифры, “совершенные” в том смысле, что даже бесконечно длинное перехваченное сообщение не поможет дешифровщику (“противнику не поможет перехват материала большего объема”.) Но Шеннон и давал, и отбирал; он в том числе доказал: требования к такому шифру настолько строги, что делают его практически бесполезным. В совершенном шифре случайные последовательности символов, из которых создаются ключи, должны появляться с одинаковой вероятностью, каждый ключ может использоваться лишь один раз и, хуже того, каждый ключ должен быть такой же длины, что и само сообщение. Кроме того, в своей секретной статье, едва ли не походя, Шеннон впервые употребил фразу “теория информации”.
Сначала Шеннону надо было избавиться от смысла. Он даже поставил кавычки. “Смысл” сообщения обычно не имеет значения”, — бодро писал Шеннон.
Это была провокация, необходимая для того, чтобы как можно четче обозначить цель. Шеннону, если он хотел создать теорию, нужно было присвоить слово информация. “Информацию, — писал он, — не стоит здесь путать с повседневным значением этого слова, пусть она с ним и связана”. Как Найквист и Хартли до него, Шеннон хотел оставить в стороне “психологические факторы” и сосредоточиться только на “физическом”. Но если информация лишена смысловой нагрузки, то что остается? Можно было дать несколько определении, и все они на первый взгляд казались парадоксальными. Информация есть неопределенность, неожиданность, трудность и энтропия.
• "Информация тесно связана с неопределенностью”. Неопределенность в свою очередь можно измерить, сосчитав количество возможных сообщений. Если возможно лишь одно сообщение, неопределенности нет и, следовательно, нет информации.
• "Некоторые сообщения могут быть более вероятными, чем другие, и информация подразумевает неожиданность”. Неожиданность есть способ выражать вероятности. Если буква, следующая за t (в английском языке), h, то передается не так много информации, потому что вероятность появления h сравнительно высока.
• "Имеет существенное значение трудность передачи сообщения из одной точки в другую”. Это, наверное, покажется столь же тавтологичным, как определение массы в терминах силы, необходимой, чтобы сдвинуть объект. Но, с другой стороны, массу таким образом определить можно.
• "Информация есть энтропия”. Это было самым странным и самым мощным определением из всех. Энтропия — само по себе трудное и плохо понимаемое понятие — есть мера неупорядоченности системы в термодинамике, науке о температурах и энергии.
Шеннон занимался криптографией и способами управления зенитным огнем, и всю войну ученого преследовали его призрачные идеи. Он жил в одиночестве в своей квартире в Гринвич-Виллидж и редко общался с коллегами — в основном они теперь работали в штаб- квартире в Нью-Джерси, он же предпочел остаться в старом здании на Вест-стрит. Ему не нужно было никому ничего объяснять и доказывать. Его военные исследования были настолько значительны, что позволили ему получить отсрочку от армейской службы, причем отсрочка была продлена и после войны. Лаборатории Белла были мужской организацией, которая в военное время сильно нуждалась в квалифицированных работниках, особенно в группе вычислителей, так что пришлось принимать на работу женщин. Среди них была Бетти Мур, выросшая на Статен-Айленде и воспринимавшая свое окружение как группу машинисток со степенью по математике.
После года работы она получила повышение и была переведена в группу изучения ультракоротких волн в бывшее здание Nabisco,“фабрики крекеров”, через дорогу от главного здания на Вест-стрит. На втором этаже группа разрабатывала, а на первом — делала лампы СВЧ, и время от времени Клод заходил туда. Он и Бетти стали встречаться в 1948-м и поженились в начале 1949-го. В то время он был ученым, о котором говорили все.
Не многие библиотеки получали The Bell System Technical Journal поэтому исследователи узнавали о “Математической теории связи” обычным путем, с чужих слов, и доставали статьи тоже обычным путем, попросив автора прислать копию. Некоторые ученые использовали для этих запросов заранее напечатанные открытки, и в течение следующего года таких открыток приходило очень много. Статью поняли не все. Ее математическая составляющая была сложна для многих инженеров, а математикам не хватало знаний в инженерии. Но Уоррен Уивер, директор отделения естественных наук Фонда Рокфеллера, уже рассказал президенту фонда, что Шеннон сделал для теории связи “то, что Гиббс — для физической химии”. Во время войны Уивер возглавлял государственные исследования в области прикладной математики, курировал проект по управлению огнем и первые работы в области электронных вычислительных машин. В 1949 году он написал благожелательное, хоть и не слишком подкрепленное технически эссе о теории Шеннона для Scientific American, а в конце того же года эссе Вивера и монография Шеннона были изданы одной книгой “Математическая теория связи”. Джон Робинсон Пирс, инженер Лабораторий Белла, который наблюдал, как одновременно в стенах лабораторий шли разработки транзистора и появлялась статья Шеннона, воспринял последнюю “как бомбу, своего рода бомбу замедленного действия”.
Там, где непосвященный мог бы сказать, что основная проблема связи — донести до собеседника свою мысль, Шеннон утверждал другое:
Основной проблемой связи является проблема точного или приблизительного воспроизведения в одной точке сообщения, выбранного в другой точке.
“Точка” была тщательно подобранным словом: пункты отправления и назначения сообщения могут быть разнесены в пространстве или во времени; хранение информации как в фонографической записи считается видом коммуникации. Тем временем сообщение не создается, оно выбирается. Это может быть карта из колоды, три десятичных знака из тысячи возможных или комбинация слов из определенной кодовой книги. Игнорировать значение было нельзя, поэтому ученый облачил его в научное определение, а затем указал на дверь:
Часто сообщения имеют значение, то есть они ссылаются на некоторую систему определенных физических или концептуальных сущностей или связаны с ними. Эти семантические аспекты коммуникации несущественны для инженерной проблемы.
Тем не менее, как разъяснил Уивер, это был широкий взгляд на коммуникацию. Он охватывал “не только письменную и устную речь, но также музыку, изобразительное искусство, театр, балет и фактически все поведение человека”. И не только человека: почему у машин не может быть сообщений, которые нужно передавать?
Модель связи Шеннона описывалась простой диаграммой — по существу, такой же диаграммой (и не случайно), как в его секретной работе по криптографии.

 

 

Система связи должна содержать следующие элементы:
• источник информации — человек или машина, генерирующие сообщение, которое может быть последовательностью символов, как в телеграфе или телетайпе, или выраженное математически как функции f(х,у,z) времени и других переменных. В сложных случаях, как цветное телевидение, компонентами сообщения являются три функции в трехмерном континууме, отмечал Шеннон;
• передатчик “некоторым образом работает с сообщением”, то есть кодирует его, чтобы выдать подходящий сигнал. Телефон преобразует звуковые волны в аналоговый электрический ток. Телеграф кодирует буквы в точки, тире и паузы. Более сложные сообщения могут быть разделены на части, сжаты, квантированы, их части могут быть разнесены;
• канал — “просто среда, используемая для передачи сигнала”;
• приемник производит операцию, обратную операции передатчика. Он декодирует сообщение или реконструирует его из сигнала;
• получатель — “человек (или вещь)” на другом конце.

 

В случае обычной речи эти элементы соответствуют мозгу говорящего, его голосовым связкам, воздуху, уху и мозгу слушающего.
Такое же значение, как и другие элементы на диаграмме Шеннона (для инженера это неизбежно), имеет и квадрат с пометкой “источник шума”. Сюда относится все, что ожидаемо или неожиданно искажает сигнал: нежелательные дополнения, обычные ошибки, случайные возмущения, статика, “атмосферные явления”, помехи и искажения. В любых обстоятельствах это очень разношерстный набор, тем более что Шеннону нужно было разобраться с двумя типами систем — непрерывными и дискретными. В дискретной системе сообщения и сигнал принимают форму индивидуальных независимых символов, таких как буквы, цифры или точки и тире. Несмотря на существовании телеграфа, инженеры-электрики ежедневно сталкивались именно с непрерывными системами волн и функций. Каждый инженер, если его просили передать больше информации по каналу, знал — надо увеличить мощность. Но на больших расстояниях этот подход не работал, потому что усиление сигнала снова и снова приводило к усилению шума.
Шеннон обошел эту проблему, рассмотрев сигнал как цепочку дискретных символов. Теперь вместо увеличения мощности отправитель мог преодолеть шум, используя дополнительные символы для коррекции ошибок, точно так же как африканский барабанщик делает свою “речь” понятной на больших расстояниях не тем, что бьет в барабаны сильнее, а тем, что увеличивает количество слов в послании. Шеннон рассматривал дискретный случай как основной и в математическом смысле. И задумывался над еще одним обстоятельством: рассмотрение сообщения как дискретного имеет практическое применение не только для традиционных средств связи, но и для новой и неизведанной теории вычислительных машин.
Так что он вернулся к телеграфу. Если быть точным, телеграф использовал язык не с двумя символами — точкой и тире. В реальности телеграфисты использовали точку (“цепь замкнута” длиной в одну единицу и “цепь разомкнута” длиной в одну единицу), тире (положим, “цепь замкнута” длиной в три единицы и “цепь разомкнута” длиной в одну единицу), а также две различные паузы: между буквами (обычно три единицы “цепь разомкнута”) и более длинную — между словами (шесть единиц “цепь разомкнута”). Эти четыре символа имели различный статус и вероятности. Так, пауза никогда не могла следовать за другой паузой, тогда как точка или тире могли следовать когда угодно. Шеннон выразил это в терминах состояний. Система имела два состояния: одно — пауза, за которой могли появляться лишь точка или тире, а затем состояние менялось; второе — когда был разрешен любой символ и состояние менялось лишь при передаче паузы. Он проиллюстрировал это следующей схемой:

 

 

Это было непохоже на простую двоичную систему кодирования. Тем не менее Шеннон показал, как вывести правильные уравнения для содержания информации и емкости канала. И сосредоточился на влиянии, которое имела статистическая структура языка сообщения.
Само существование этой структуры — большей вероятности появления e, чем q, th — чем xp и т.д. — позволяло экономить время или емкость канала.
В определенной степени это уже сделано в телеграфии, когда используется кратчайшая последовательность в канале — точка — для E, наиболее частой буквы в английском, тогда как редкие буквы Q, X и Z представлены более длинными последовательностями точек и тире. Эта идея более последовательно применяется в определенных коммерческих кодах, где общеупотребимые слова и фразы представляются четырех- или пятибуквенными группами, что приводит к существенному сокращению среднего времени передачи. Стандартизованные приветствия и поздравительные телеграммы, использующиеся сегодня, расширяют эту идею до кодирования одного или двух предложений сравнительно короткой последовательностью чисел.
Чтобы показать структуру сообщения, Шеннон прибег к методологии и языку физики стохастических процессов от броуновского движения до звездной динамики. (Он цитировал знаменитую статью 1943 года астрофизика Субраманьяна Чандрасекара в Reviews of Modern Physics.) Стохастический процесс не является ни детерминированным (следующее событие может быть точно просчитано), ни случайным (следующее событие абсолютно независимо). Он управляется набором вероятностей. Каждое событие имеет вероятность, которая зависит от состояния системы и, пожалуй, от истории предыдущих состояний. Если вместо события мы подставим символ, то естественный письменный язык, такой как английский или китайский, будет стохастическим процессом. Такими же процессами являются оцифрованная речь и телевизионный сигнал.
Погрузившись глубже, Шеннон исследовал статистическую структуру на предмет того, как само сообщение влияет на вероятность появления следующего символа. Ответ мог быть таким: никак, каждый символ имеет собственную вероятность появления и не зависит от того, что было раньше. Это случай первого порядка. В случае второго порядка вероятность появления каждого символа зависит от символа, непосредственно ему предшествующего, и больше ни от каких других. Тогда каждая двухбуквенная комбинация или диаграмма имеет собственную вероятность: в английском языке th имеет вероятность большую, чем xp. В случае третьего порядка рассматриваются триграммы и т.д. Помимо этого, в обычном тексте имеет смысл принимать во внимание скорее уровень слов, а не отдельных букв, и тогда многие статистические факты начинают иметь значение.
Некоторые слова имеют более высокую вероятность появления после слова yellow (желтый), чем обычно, а другие обладают вероятностью, практически равной нулю. После слова an слова, начинающиеся с согласной, весьма редки. Если слово оканчивается на u, это слово, вероятно, you. Если две стоящие рядом буквы совпадают, то это, вероятно, ll, ee, ss или oo. И структура может распространяться на большие расстояния: в сообщении, содержащем слово cow, даже после большого количества других символов слово cow сравнительно вероятно появится снова. То же самое со словом horse. Сообщение, с точки зрения Шеннона, могло вести себя как динамическая система, чье будущее поведение обусловлено ее прошлыми состояниями.
Чтобы показать различия между этими структурными порядками, он записал, точнее вычислил, ряд “приближений” для текста на английском языке. Он пользовался алфавитом из 27 знаков — 26 букв и пробел между словами — и сгенерировал строки символов с помощью таблицы случайных чисел. (Таблицы он взял из только что опубликованной издательством Кембриджского университета книги: 100 тыс. знаков за 3 шиллинга 9 пенсов, причем авторы “гарантировали случайность чисел”.) Даже с готовыми случайными числами получение последовательностей было трудной задачей. Примеры текстов выглядели так.
• Приближение нулевого порядка, то есть случайные знаки без структуры или корреляций.

 

 

• Первый порядок — каждый знак не зависит от остальных, но частотность знаков соответствует ожидаемой частотности для английского языка: больше e и t, меньше z и l, длина слов выглядит правдоподобно.

 

 

• Второй порядок — частотность каждого знака, диаграмм или каждой пары букв соответствует аналогичной частотности в английском языке (Шеннон нашел необходимую статистику в таблицах, составленных в помощь взломщикам шифров. Наиболее популярной диграммой в английском языке является th с частотностью 168 появлений на 1 тыс. слов, за ней следует he, an, re и er. Довольно много диграмм имеют нулевую частотность).

 

 

• Третий порядок — частотность триграмм.

 

 

• Приближение первого порядка на уровне слов.

 

 

• Приближение второго порядка на уровне слов — теперь учитывается частотность появления пары слов вместе, поэтому мы не встречаем таких бессмысленных сочетаний артиклей и предлогов, как a in или to of.

 

 

Последовательности символов с каждым приближением все сильнее “выглядят” как текст на английском языке. Есть и менее субъективное доказательство: оказалось, что скорость, с которой машинистки, печатающие слепым методом, набирают эти последовательности, возрастает с каждым приближением, и это тоже указывает на то, что люди подсознательно усваивают статистическую структуру языка.
Шеннон мог ввести и другие приближения, но они требовали все возрастающих затрат сил и времени. Идея заключалась в том, чтобы представить сообщение как результат процесса генерации событий с дискретными вероятностями. Что тогда можно сказать о количестве информации или скорости, с которой генерируется информация? Для каждого события каждый из возможных выборов имеет известную вероятность (обозначенную p1, p2, p3 и т.д.). Шеннон хотел определить меру информации (обозначенную H) как меру неопределенности: “количество “вариантов”, задействованных в выборе события, или насколько мы не уверены в том, каким будет результат”. Вероятности могли быть одинаковыми или разными, но в общем случае большее число возможных выборов означало больше неопределенности — больше информации. Выбор можно представить и как результат последовательных выборов, у каждого из которых есть собственная вероятность, и эти вероятности должны суммироваться; например, вероятность появления конкретной диграммы должна быть равна взвешенной сумме вероятностей появления индивидуальных символов. Когда эти вероятности были равны, количество информации, передаваемое каждым символом, было логарифмом количества возможных символов — формула Найквиста и Хартли:

 

Н = n log s.

 

Для более реалистичного случая Шеннон привел элегантное решение проблемы измерения информации как функции вероятностей. Это средний логарифм невероятности сообщения, фактически мера неожиданности:

 

H = Σpi log2pi

 

где pi есть вероятность каждого сообщения. Он заявил, что мы будем сталкиваться с этим снова и снова, что количества, представленные в таком виде, “играют решающую роль в теории информации как меры информации, выбора и неопределенности”.
В самом деле, H вездесуща и обычно называется энтропией сообщения, энтропией Шеннона или просто информацией.
Требовалась новая единица измерения. Шеннон утверждал: “Получившиеся единицы можно назвать двоичными цифрами или, более кратко, битами”. Бит как наименьшее возможное количество информации представляет собой количество неопределенности, возникающее при подбрасывании монеты. Бросок монеты — это выбор между двумя возможностями равной вероятности: в этом случае p1 и p2 равны ½; логарифм по основанию 2 от ½ есть -1, таким образом, H = 1 бит. Единственный знак, случайно выбранный из алфавита в 32 знака, несет больше информации, если точнее — 5 бит, потому что есть 32 возможных сообщения, а логарифм 32 равен 5. Строка из 1000 таких знаков несет 5000 бит информации не только из-за простого умножения, но и потому, что количество информации представляет количество неопределенности, количество возможных выборов. С 1000 знаками в 32-значном алфавите есть 321000 возможных сообщений, и логарифм этого числа равен 5000.
Тут на сцене снова появляется статистическая структура естественного языка. Если известно, что сообщение в тысячу знаков написано на английском языке, число возможных сообщений сокращается, и сокращается намного. Изучив корреляции цепочек свыше восьми символов, Шеннон оценил встроенную избыточность английского языка приблизительно в 50%: каждый новый символ сообщения несет не 5 бит, а 2,3 бита. Учтя увеличение статистического влияния при возрастании длины текста на уровне предложений и абзацев, он поднял оценку избыточности до 75%, предупредив, что такие оценки становятся “сильнее подвержены ошибкам и неточностям и больше зависят от типа передаваемого текста”. Один из способов измерения избыточности был строго эмпирическим — провести психологический тест с участием человека. Этот метод “доказывает тот факт, что каждый говорящий, пусть и неосознанно, обладает огромными познаниями в области языковой статистики”.
Знакомство со словами, идиомами, клише и грамматикой позволяет ему заполнять пропуски букв, исправлять ошибки или завершать неоконченные фразы в разговоре.
Он мог написать: “Ей”, поскольку на самом деле испытуемым в этом эксперименте выступала его жена Бетти. Он снял с полки книгу (детективная повесть Раймонда Чандлера “Засада на Нун-стрит”), закрыл пальцем короткий случайный отрывок и попросил Бетти угадать первую букву, затем вторую букву, затем следующую, постепенно отодвигая палец и открывая текст. Чем больше текста она видела, тем выше были ее шансы угадать правильно. После “небольшой продолговатой лампы для чтения на” она ошиблась в следующей букве. Но, как только она узнала, что это была “с”, ей не составило труда угадать следующие буквы. Шеннон заметил: “Ошибки, как и следовало ожидать, чаще всего встречаются в начале слов и слогов — там, где у мысли больше возможностей пойти в разных направлениях”.
Такое представление предсказуемости и избыточности является способом измерения количества информации от обратного. Если букву можно угадать исходя из того, что было раньше, она избыточна; в той мере, в какой она избыточна, она не несет новой информации. Если английский язык на 75% избыточен, то сообщение в 1 тыс. знаков на английском несет лишь 25% информации, которая содержится в последовательности из 1 тыс. случайно выбранных знаков. Как ни парадоксально, случайно выбранные сообщения несут больше информации. Вывод: текст на естественном языке можно более эффективно кодировать для передачи или хранения.
Шеннон продемонстрировал один из способов — алгоритм, основанный на различии вероятностей появления символов. И получил поразительный набор результатов. Одним из них была формула для вычисления емкости канала, абсолютного предела скорости любого канала связи (сегодня известного как предел Шеннона). Другим открытием стало то, что в рамках этого предела всегда можно разработать схемы коррекции ошибок, которые справятся с любым уровнем шума. Возможно, отправителю придется посылать все больше бит для коррекции ошибок, сильнее замедляя передачу, но сообщение в конце концов достигнет адресата. Шеннон не показал, как составлять такие схемы, он лишь доказал, что это возможно, обозначив одно из направлений развития информатики. “Сделать вероятность ошибки настолько малой, насколько пожелаете? Никто не подумал об этом раньше, — вспоминал годы спустя его коллега Роберт Фано. — Не знаю, как ему пришло это в голову, как он поверил в такое. Но почти вся современная теория коммуникации основана на этой работе”. И при устранении избыточности для повышения эффективности, и при добавлении избыточности для коррекции ошибок кодирование зависит от знаний о статистической структуре языка. Информацию нельзя отделить от вероятностей. Бит, по сути, — это всегда бросок монеты.
Шеннон предложил и более практичное, чем стороны монеты, оборудование, чтобы представить бит:
Устройство с двумя стабильными позициями, такое как реле или триггер, может хранить один бит информации. N таких устройств могут хранить N бит, поскольку общее число возможных состояний равно 2N, а log22N = N.
Шеннон видел устройства — например, множество реле, — которые могли хранить сотни, даже тысячи бит. Казалось, что это очень много. Когда он заканчивал статью, он забрел в кабинет своего коллеги по Лабораториям Уильяма Шокли, англичанина лет тридцати. Шокли работал в группе физики твердого тела, разрабатывающей альтернативы вакуумным лампам для электроники, и на его столе лежал маленький прототип, кусочек полупроводникового кристалла. “Это твердотельный усилитель”, — сказал Шокли Шеннону. В то время у прототипа еще не было названия.
* * *
Летом 1949 года, еще до выхода The Mathematical Theory of Communication, Шеннон взял карандаш и лист бумаги, нарисовал вертикальную линию и написал степени числа 10 от 100 до 1013. Он обозначил эту ось как “емкость хранения битов”. Он начал перечислять некоторые вещи, о которых можно было сказать, что они хранят информацию. Десятичное колесо типа того, что использовалось в настольных арифмометрах, десять десятичных знаков, представляло всего около 3 бит. Не доходя до 103 он написал “перфокарта (любой конфигурации)”. На 104 он поставил “страница, напечатанная через один интервал (тридцать два возможных символа). Около 105 он написал нечто необычное: “генетический состав человека”. В науке того времени этому не было настоящего соответствия. Джеймс Д. Уотсон был 21-летним студентом зоологии в Индиане, открытие структуры ДНК еще только предстояло.

 

 

Впервые кто-либо предположил, что геном есть хранилище информации, измеряемой в битах. Догадка Шеннона оказалась чересчур осторожной — он ошибся по меньшей мере на четыре порядка.
Шеннон думал, что “фонографическая запись (128 уровней)” хранит больше информации — около 300 тыс. бит. На уровне 10 млн бит он поместил толстый научный журнал (Proceedings of the Institute of Radio Engineers), на 1 млрд бит — энциклопедию “Британника”. Он оценил час телевизионного вещания в 1011 бит, а час показа “цветного кинофильма” — в более чем 1 трлн бит. Наконец, сразу под отметкой для 1014, или 100 трлн бит, он поместил самое большое хранилище информации, которое мог себе представить, — библиотеку Конгресса.

 

Назад: Глава 6. НОВЫЕ ПРОВОДА, НОВАЯ ЛОГИКА. Ни одна другая вещь не окружена такой завесой тайны
Дальше: Глава 8. ИНФОРМАЦИОННЫЙ ПОВОРОТ. Основа, на которой построен мозг