Введение

Это изобретение я считаю эпохальным в истории науки <…> огромная благодарность <…> за исключительное удовольствие, которое доставило нам прослушивание инструмента мистера Эдисона [1].

Ваше поразительное изобретение настолько овладело моим разумом, что я не могу собраться с мыслями и продолжить работать. Результаты (с научной точки зрения) – далеко идущие, а возможности – безграничные [2].

В декабре 1877 года Томас Эдисон вошел в историю, записав и проиграв на фонографе песенку «У Мэри был маленький барашек». Это была не просто «эпоха в истории развития науки», а революционное событие для человеческого голоса. Раньше услышать речь можно было только вживую, из уст другого человека. До появления фонографа можно было читать знаменитые речи, например «Геттисбергское послание» Авраама Линкольна, но ка́к именно говорил президент, утеряно навеки. Фонограф записал, как произносятся слова, а это может быть настолько же важно, как и сами слова. Когда кто-то говорит: «Со мной все в порядке», тон его голоса может на самом деле свидетельствовать о том, что в порядке далеко не все.

Голос определяет нашу индивидуальность. Чтобы узнать друга или любимого человека по телефону, достаточно услышать всего несколько слов – это потрясающая способность! Если звонит незнакомый человек, мы сразу же начинаем схватывать особенности произношения и интонацию, что дает возможность предположить, каково образование, происхождение и социальный статус нашего собеседника. Кроме того, мы примерно определяем возраст, рост и личностные характеристики, хотя часто эти выводы оказываются ошибочными, поскольку подвержены влиянию предрассудков и предубеждений. Мы приспосабливаем и изменяем свою речь, чтобы нас воспринимали по-разному. По сути, в речи мы – хамелеоны. Мы подсознательно «включаем» особенности произношения, когда приезжаем в родной город, и «выключаем» их в других местах, чтобы не выбиваться из массы. Наш голос не столь постоянен, как можно себе представить.

Прослушивание записи собственной речи, обычно сбивающее нас с толку, показывает, как голос формирует наше представление о себе. Мы всегда воспринимаем собственный голос более гулким, чем его слышат другие, потому что вибрации костей передают звук от гортани к уху и усиливают басовое звучание. Но запись сразу же демонстрирует, что те особенности нашего голоса, которые улавливают другие, не соответствуют нашему представлению о внутреннем голосе. До изобретения Эдисона мы пребывали в счастливом неведении относительно этого факта.

«Устную историю» человечества можно разбить на три периода, и фонограф отмечает в ней смену эпохи. Вначале мы, подобно животным, издавали простые звуки, с помощью которых воздействовали на других: держали на расстоянии соперников, предупреждали об опасности, призывали свою пару. Второй период начался с возникновения языка, что привело к коллективным достижениям и позволило человеку господствовать над миром. В большей степени человеческая речь все еще предназначалась для того, чтобы оказывать влияние на мысли и поступки других – в равной степени это относится и к родителю, запрещающему малышу выбегать на дорогу, и к Генриху V, призывающему войска кличем: «Что ж, снова ринемся, друзья, в пролом». Но мы разговариваем и для удовольствия, и чтобы развлекать других, общаться с миром или объявить о своей любви. Возникновение технологий, таких как фонограф, обозначивший начало третьего периода, позволило людям обращаться уже к группам людей, что иногда приводило к разрушительным последствиям. На Нюрнбергском процессе один из германских министров заявил, что нацистская диктатура впервые «в полной мере использовала все возможные технические средства для господства над собственной страной. С помощью технических устройств, таких как радио и громкоговоритель, 80 миллионов человек были лишены возможности самостоятельно мыслить» [3]. Сейчас мы стоим на пороге новой захватывающей эпохи. Создание искусственного интеллекта означает, что мы начинаем общаться с компьютерами. Хорошо это или нет, но наше умение пользоваться словами с целью общения перестает быть исключительным по мере того, как мы передаем его машинам.

Эта книга – история о том, как эволюционируют говорение и слуховое восприятие, как человек развивает эти замечательные способности в детстве и как человеческое общение изменяется с возникновением новых технологий. Кажется, что вести беседу – это просто, потому что мы хорошо умеем это делать! Однако на самом деле говорение и слушание представляют собой, пожалуй, две самые сложные задачи, которые приходится решать нашему телу и разуму. Говорение требует точного исполнения анатомических упражнений, и за каждое из них отвечают различные отделы мозга. Понимание того, что произносит говорящий, а также распознавание передаваемых тоном голоса сигналов, указывающих на смыслы и настроение говорящего, тоже чрезвычайно сложно. Эти процессы в норме скрыты от внешнего наблюдения, но психологи, нейробиологи и биологи обнаруживают все больше данных о том, как они протекают. В современном мире разговоры с глазу на глаз все чаще замещаются общением с помощью технологий, когда речь передается и преобразуется техническими приспособлениями. И это влияние технологии будет расти по мере того, как разговоры с компьютерами станут обычным делом. Какие секреты мы можем невольно выдать своим девайсам? Как слушает и разговаривает искусственный интеллект? Как это повлияет на человеческую речь в будущем?

Фонограф – это лишь один пример того, как технология повлияла на речь и слух. Впервые фонограф был представлен британской аудитории в 1878 году. Демонстрация происходила в Королевском институте, где в Викторианскую эпоху великие и достойные люди собирались, чтобы насладиться новейшими достижениями науки и техники. Лекционный зал был набит битком, когда Уильям Генри Прис, главный инженер Британского почтово-телеграфного ведомства, демонстрировал модель изобретения Эдисона. За неделю до этого события ее в спешке собрали на месте, потому что отправленный из Америки фонограф задержался в пути. Как и Эдисон, для тестирования устройства Прис использовал популярную детскую потешку и продекламировал: «Играет кот на скрипке, на блюде пляшут рыбки». Как сообщалось в газете London Weekly Graphic, «слова можно было легко понять, но сам голос был очень слабым и как будто карикатурным». Выбрать детские потешки для демонстрации революционного технологического изобретения – умный шаг: слушатели настолько хорошо знали слова, что могли подсознательно подставить те из них, которые были слышны плохо из-за царапания иглы по оловянной фольге. Новое изобретение имело грандиозный успех. «Вокруг стола собралась толпа: все хотели увидеть фонограф, что-то сказать, чтобы записать это и потом услышать, – писала Graphic. – И люди оставались в зале до 11 часов, пока не выключили газ: явный намек на то, что пора и честь знать» [4].

Второй фонограф, созданный Эдисоном, прибыл в Англию через две недели. Обычно его не показывают публике, но мне выпала честь рассмотреть его поближе, когда я принимал участие в радиопередаче BBC. С правой стороны у аппарата имеется заводная рукоятка, которая вращает центральный цилиндр, покрытый оловянной фольгой. С левой стороны находится большое маховое колесо, обеспечивающее плавность движения. Говорить нужно в простую воронку, направляющую звук в небольшую мембрану, которая начинает вибрировать. К задней стороне мембраны прикреплена игла, которая по мере вращения фольги вычерчивает спиральную дорожку. Все удивительно просто: колебания воздуха, которые создают звук голоса, преобразуются в колебания иглы, а следы от движения иглы запечатлеваются на фольге в виде волнистой бороздки. Чтобы воспроизвести звук, необходимо проследовать в обратном направлении: сначала воспроизводящая игла движется по бороздке, повторяя ее углубления и выпуклости, это создает вибрации сначала мембраны, а затем и молекул воздуха, которые достигают ушей слушателя.

Фонограф Эдисона – музейный экспонат и больше не используется, но во время посещения Королевского института Великобритании я на другом аппарате записал «Рассвет» Альфреда Теннисона. Я выбрал именно это стихотворение, потому что сам Теннисон наблюдал, как его записывали на фонограф, когда новое изобретение в первый раз представляли в Королевском институте. Чтобы запись получилась, приходилось наклоняться очень близко к рупору и кричать, чтобы оставляемые иглой бороздки были достаточно глубокими, в противном случае при воспроизведении слова́ заглушались поверхностными шумами. Мой голос звучал очень слабо, но слова были отчетливо слышны даже на фоне неизбежного царапающего звука.

Томас Эдисон и его фонограф [5]

Первые демонстрации фонографа сопровождались веселыми экспериментами. Коронным номером в то время было изменение скорости вращения ручки во время воспроизведения звука. Один из очевидцев рассказывал, что слышал голос «рассерженной старой женщины», когда цилиндр вращался слишком быстро, и «немощного старика, набравшего в рот воды», когда воспроизведение замедлялось [6]. The Beatles прославились своими новаторскими экспериментами со звуком – наложением голосов, проигрыванием записей наоборот и на разной скорости. В 1970-е годы отдельные религиозные группы были возмущены тем, что при проигрывании некоторых песен в обратном порядке, например «Лестницы в небо» группы Led Zeppelin, якобы передавались сатанинские стихи. Но ведь первым был Эдисон: именно он так проиграл Mad dog! Mad dog! Mad dog!.

Индеец пиеган и этнолог Фрэнсис Денсмор, 1916

Влияние технологии на голос оказалось очень значительным, она не просто позволила нам дурачиться с записями речи, но изменила то, как мы говорим и поем. Я сравнил историческую запись на фонографе, на которой актер сэр Генри Ирвинг читает «Зима тревоги нашей позади», с современной интерпретацией Дэвида Моррисси. На записи XIX века Ирвинг усиливает свой аристократический голос, используя специальную вокальную технику, разработанную для большой сцены театра. Микрофон же, напротив, освобождает Моррисси от необходимости говорить очень громко, и он произносит строки так, будто выступает перед небольшой аудиторией, при этом четко различимы особенности его хрипловатого голоса. Существенно изменилось и пение. Можно сравнить ранние записи на фонографе оперной суперзвезды Аделины Патти с записями великолепных современных певиц, например Эми Уайнхаус. Оперный голос Патти исключительно чистый и приятный, а исполнение Эми Уайнхаус в большей степени выражает ее индивидуальность и обнажает душу. Патти приходилось анатомически точно выстраивать звуки, чтобы звучать громко. У Уайнхаус было больше свободы для самовыражения, потому что электроника взяла на себя нагрузку на голос. Технология позволила огромному разнообразию голосов появиться в современной музыке.

По своей природе звук быстротечен, но все изменилось с появлением звукозаписи. Теперь ученые могут анализировать богатую историю устной речи. Они обнаружили культурные изменения, такие как понижение тона женского голоса за последние десятилетия, или замену гнусавости кокни в лондонском Ист-Энде смешанными акцентами из разных культур. Голос трансформировался на протяжении всей истории человечества, но лишь сейчас мы можем непосредственно фиксировать эти изменения. Ученые могут сравнивать старые и новые записи, чтобы понять, как на протяжении жизни, в течение которой человек говорит и слушает, изменяется его голос. К счастью, наша голосовая анатомия хорошо справляется с возрастными изменениями: морщины и седые волосы появляются значительно раньше, чем деградирует голос.

Для своего изобретения Эдисон предусмотрел множество сфер применения, но сильнее всего ему хотелось записывать голоса людей незадолго до их смерти. Голос выражает личность в значительно большей степени, чем изображение, потому что голос – живой. Как предсказывал Эдисон, «фонограф, несомненно, превзойдет фотографию в смысле сохранения высказываний, голосов и последних слов умирающих членов семьи – и великих людей» [7]. Хотя это пророчество не сбылось, в наши дни люди все чаще сохраняют голоса любимых, записывая их на видео. Мобильные телефоны и другие гаджеты привели к тому, что анимированные изображения и звукозаписи стали серьезно конкурировать с неподвижными фотографиями.

Сегодня искусственный интеллект позволяет создавать голосовые воспоминания, имитирующие беседу с умершими людьми. Ведется множество разговоров о том, что искусственный интеллект лишит людей рабочих мест, но кто бы мог подумать, что прорицатели, проводящие спиритические сеансы, столкнутся с сокращением штата? (Хотя, по-видимому, они уже об этом знают и начали переквалифицироваться.)

В 2015 году в Москве трагически погиб под колесами автомобиля редактор интернет-журнала Роман Мазуренко. Его близкий друг, предприниматель Евгения Куйда, создала чат-бот, чтобы в последний раз поговорить с Романом. У Евгении были тысячи текстовых сообщений от друга, и все они были загружены в компьютерную программу, с помощью которой искусственный интеллект создал робота, использующего стиль речи Романа. Слова Теннисона навеки запечатлены в воске, но робот Романа может отвечать фразами, которые никогда не существовали в текстовых сообщениях [8]. Вот типичный пример:

Евгения. Как дела?

Бот Роман. Я в порядке. Настроение не очень. Надеюсь, ты там без меня ничем интересным не занимаешься?

Евгения. Тут много всего происходит. Жизнь продолжается, но нам тебя не хватает.

Бот Роман. И мне вас не хватает. Похоже, это и называется любовью [9].

Как к этому относиться? Нет ничего необычного в том, чтобы разговаривать с ушедшим любимым, вслух или про себя, но при мысли, что машина отвечает, бросает в дрожь. Технология разделила друзей и семью Романа: кому-то это понравилось, кто-то счел это неприемлемым. А теперь представьте, что мы сделали еще шаг вперед и используем технологии для реконструкции голоса Романа. Это вполне реально: персонализированные искусственные голоса все чаще используются людьми, потерявшими голос из-за болезни, например, двигательного нерва. Если вам неприятна мысль об обмене сообщениями с умершим человеком, представьте страшную машину, способную «оживить» голос любимого. Это поднимает множество этических вопросов – например, можно ли вторгаться в чей-то цифровой след, чтобы создать иллюзию бессмертия?

Искусственный интеллект уже готов в корне изменить наши разговоры. Для людей говорение и слушание – это не просто способы передачи фактической информации. Фраза «я тебя люблю» полна коннотаций. Вряд ли такое скажешь компьютеру, но каждый день тысячи людей признаются в любви Алексе, понимающему голос персональному ассистенту компании Amazon [10]. По мере того как будут появляться машины, способные понимать и изображать эмоции или даже просто убедительно их копировать, наши взаимоотношения с этими устройствами изменятся навсегда. Мы уже не так далеки от реализации сценария фильма 2013 года «Она», где одинокий мужчина влюбляется в интеллектуальную операционную систему по имени Саманта.

Кто потеряет работу, когда технологии позволят улучшить качество разговора? В начале XIX века луддиты громили новые машины – детища промышленной революции, которые угрожали их благосостоянию. Когда в начале XX века музыкальные записи стали привычным делом, композитор Джон Филип Суза опасался, что скоро «никто не отважится подвергнуть себя благородному занятию обучения музыке» [11]. В 2014 году постановка «Кольца нибелунга» Рихарда Вагнера в Хартфорде, штат Коннектикут, была отложена из-за скандала, связанного с использованием компьютера вместо живого оркестра [12]. Если машины освоят эмоции, увидим ли мы, как последователи луддитов штурмуют театр «Глобус», чтобы уничтожить андроидов, декламирующих Шекспира? Сможет ли искусственный интеллект пойти еще дальше и заменить Барда, написав пьесу, в которой будут играть андроиды?

В театре существует давняя традиция использования животных, призраков или марионеток для демонстрации человеческих качеств. Когда компьютеры начнут общаться с нами, технологии тоже позволят нам больше узнать о себе. Сравните сложности, с которыми сталкиваются ученые, пытаясь научить компьютер слушать и говорить, с тем, как дети развивают эти способности естественным путем. Мы думаем, что решать арифметические задачи трудно, а разговаривать – легко. Но когда мы пытаемся научить этому машины, оказывается, что как раз арифметические задачи не представляют трудностей. Способность человека вести беседу кажется очень примитивной, но на самом деле это поразительное свойство.

Сегодня речевая деятельность часто тесно связана с технологией, но если мы хотим разобраться в способности человека разговаривать, нам нужно знать, что происходило задолго до того, как был изобретен фонограф. Как возникла человеческая речь? Могли ли неандертальцы разговаривать с «современным человеком», Homo sapiens? Эта актуальная тема обсуждается в первой главе.

Назад: Тревор Кокс Зачем мы говорим. История речи от неандертальцев до искусственного интеллекта

Дальше: 1 Эволюция