3.11. Как сделать объемный звук на ПК
Решил обновить звуковую систему (колонки) и, выбирая, на многих моделях увидел отдельную кнопку включения «3D». Заинтересовался – неужели так легко одной фиксированной кнопкой можно изменить качество и даже программное оформление звучания акустических систем ПК? Оказалось, что не все так просто. В предлагаемой статье обзор данной проблемы.
Развитие систем окружающего 3D-звука пока идет по пути создания красивой акустической иллюзии, за счет более или менее удачного обмана физиологии нашего слуха. Следующим логическим шагом в этом направлении уже стало интерактивное аудио, в основу которого положено адекватное реагирование на изменение акустических свойств помещения с целью имитации акустики всемирно знаменитых концертных залов. В будущем окажется актуально иметь отдельную комнату для аудиовидеоланча, скроенную по принципу срезов золотых сечений с натяжными звукокорректирующими гобеленами XVII века, скромными персидскими коврами и парочкой древнеримских статуй с отверстиями – для дробилки стоячих волн.
Может быть и поэтому звуковое сопровождение компьютера для рядового пользователя находится на втором плане. Большинство пользователей лучше потратят деньги на новейший акселератор 3D-графики, нежели на новую звуковую карту.
Однако за последний год разработчики звуковых чипов и технологий 3D-звука приложили немало усилий, чтобы убедить пользователей приложений в том, что хороший 3D-звук является неотъемлемой частью современного мультимедиа ПК. Пользователей убедить в пользе 3D-звука несколько легче, чем разработчиков приложений. Достаточно расписать то, как источники звука будут располагаться в пространстве вокруг него (звук будет окружать слушателя со всех сторон и динамично изменяться), как многие потянутся за бумажником. С разработчиками игр и приложений сложнее. Их надо убедить потратить время и средства на реализацию качественного звука. А если звуковых интерфейсов несколько, то перед разработчиком игры встает проблема выбора. Один из популярных интерфейсов сегодня – DirectSound3D от Microsoft. Само понятие «трехмерный звук» подразумевает, что источники звука располагаются в трехмерном пространстве вокруг слушателя. Чтобы придать звуковой модели реализм и усилить восприятие звука пользователем, реализуются технологии, обеспечивающие воспроизведение реверберации, отраженных звуков, окклюзии (звук, прошедший через препятствие), обструкции (звук не прошел через препятствие), дистанционное моделирование (вводится параметр удаленности источника звука от слушателя) и масса других интересных эффектов. Цель всего этого – создать у пользователя реальность звука и усилить впечатления от видеоряда в игре или приложении.
Не секрет, что слух человека – это второстепенное (после зрения) чувство человека, именно поэтому каждый индивидуальный пользователь воспринимает звук по-своему. Никогда не будет однозначного мнения о звучании той или иной звуковой карты или эффективности той или иной технологии 3D-звука. Сколько будет слушателей, столько будет мнений.
Для позиционирования источников звука в виртуальном 3D-пространстве используются HRTF функции. Что такое HRTF и действительно ли их использование так эффективно?
Сколько раз уже происходило следующее: команда, отвечающая за звук, закончила встраивание 3D-звукового интерфейса на базе HRTF в новейшую игру; все комфортно расселись, готовясь услышать «звук, окружающий со всех сторон» и «свист пуль над головой»; запускается демоверсия игры и… и ничего подобного нет!
HRTF (Head Related Transfer Function) – это процесс, посредством которого наши два уха определяют слышимое местоположение источника звука; голова и туловище являются в некоторой степени препятствием, задерживающим и фильтрующим звук, поэтому ухо, скрытое от источника звука головой, воспринимает измененные звуковые сигналы, которые при декодировании мозгом интерпретируются для правильного определения местоположения источника звука. Звук, улавливаемый нашим ухом, создает давление на барабанную перепонку. Для определения создаваемого звукового давления необходимо определить характеристику импульса сигнала от источника звука, попадающего на барабанную перепонку, т. е. силу, с которой воздействует звуковая волна. Эту зависимость называют Head Related Impulse Response (HRIR), а ее интегральное преобразование – HRTF.
Принято характеризовать акустические источники скоростью распространяемых ими звуковых волн V(t). Теоретически давление, создаваемое идеальным точечным источником звука бесконечно, но ускорение распространяемой звуковой волны есть конечная величина. Если пользователь находится в состоянии «free field» (в окружающей среде нет ничего кроме источника звука и среды распространения звуковой волны), тогда давление «free field» (ff) на расстоянии «г» от источника звука определяется по формуле:
Pff(t) = Zo V(t – r/c) / г,
где Zo – это постоянная, называемая волновым сопротивлением среды (characteristic impedance of the medium), c – скорость распространения звука в среде. Давление ff пропорционально скорости в начальный период времени (происходит сдвиг по времени, обусловленный конечной скоростью распространения сигнала). Возмущение в этой точке описывается скоростью источника в момент времени, отстоящий на r/c – время затраченное на то, чтобы сигнал дошел до пользователя. Не зная V(t), нельзя утверждать характера изменения скорости при сдвиге (т. е. произойдет замедление или ускорение) и давление уменьшается обратно пропорционально расстоянию от источника звука до нахождения пользователя.
Если поместить в среду распространения звуковых волн человека, тогда звуковое поле вокруг него искажается за счет дифракции (различие скоростей распространения волн разной длины), отражения и дисперсии (рассредоточения) при контакте человека со звуковыми волнами. Тот же источник звука создает другое давление звука P(t) на барабанную перепонку в ухе человека. Для разного положения головы относительно источника звука задействуются HRTF фильтры. Библиотека HRTF фильтров создается в результате лабораторных измерений, производимых с использованием манекена, носящего название KEMAR (Knowles Electronics Manikin for Auditory Research, – манекен Knowles Electronics для слуховых исследований) или с помощью специального «цифрового уха» (digital ear), разработанного в лаборатории Sensaura, располагаемого на голове манекена. Измеряется составляющая HRIR, а значение HRTF получается путем преобразования. В ушах манекена располагаются микрофоны, звуки воспроизводятся через акустические колонки, расположенные вокруг манекена. Записывается то, что слышит каждое «ухо».
HRTF – сложная функция с четырьмя переменными: три пространственных координаты и частота. При использовании сферических координат для определения расстояния до источников звука больших, чем один м, считается, что источники звука находятся в дальнем поле (far field) и значение HRTF уменьшается обратно пропорционально расстоянию. Измерения HRTF производятся в дальнем поле, что существенным образом упрощает HRTF до функции азимута (azimuth), высоты (elevation) и частоты (frequency), т е. происходит упрощение за счет избавления от четвертой переменной. При записи используются полученные значения измерений и в результате он при проигрывании звука (например, оркестра) воспроизводится с таким же пространственным расположением, как при естественном прослушивании. Техника HRTF не нова, она широко используется пару десятков лет, обеспечивая качество стереозаписей. Лучшие результаты получаются при прослушивании записей слушателем в наушниках.
Наушники, конечно, упрощают решение проблемы доставки одного звука к одному уху и другого звука к другому уху. Тем не менее, использование наушников имеет и недостатки. Например:
* Многие люди просто не любят использовать наушники. Даже легкие беспроводные наушники могут быть обременительны. Наушники, обеспечивающие наилучшую акустику, могут быть чрезвычайно неудобными при длительном прослушивании.
* Наушники могут иметь провалы и пики в своих частотных характеристиках, которые соответствуют характеристикам ушной раковины. Если такого соответствия нет, то восприятие звука, источник которого находится в вертикальной плоскости, может быть ухудшено. Слышится преимущественно только звук, источники которого находятся в горизонтальной плоскости.
* При прослушивании в наушниках создается ощущение, что источник звука находится очень близко. Действительно, физический источник звука находится очень близко к уху, поэтому необходимая компенсация для избавления от акустических сигналов, влияющих на определение местоположения физических источников звука, зависит от расположения самих наушников.
* Применение наушников в наш век не очень удобно. Если это наушники с ободом – они физически создают давление на голову и уши. Подбор таких наушников не менее сложен, чем, скажем, подбор хороших очков для подводного плавания. Наушники, вставляемые в ушные раковины, не универсальны и у многих людей вызывают дискомфорт.
Использование акустических колонок позволяет обойти большинство из этих проблем. Здесь недостаток в том, что нельзя использовать колонки для воспроизведения бинаурального звука (т. е. звука, предназначенного для прослушивания в наушниках, когда часть сигнала предназначена для одного уха, а другая часть для другого уха). Как только мы подключим вместо наушников колонки, наше правое ухо начнет слышать не только звук, предназначенный для него, но и часть звука, предназначенную для левого уха. Одним из решений проблемы является использование техники cross-talk-cancelled stereo или transaural stereo, называемой алгоритм crosstalk cancellation (для краткости CC).
Идея CC просто выражается в терминах частот. Звуковые сигналы воспроизводятся колонками. Сигнал Y1, достигающий левого уха, представляет собой смесь из S1 и crosstalk (части) сигнала S2. Здесь Y1=H11 S1 + H12 S2, где H11 является HRTF между левой колонкой и левым ухом, а H12 – это HRTF между правой колонкой и левым ухом. Аналогично Y2=H21 S1 + H22 S2. Если использовать наушники, то пользователь будет знать искомые сигналы Y1 и Y2, воспринимаемые ушами. Необходимо правильно определить сигналы S1 и S2, чтобы получить оптимальный результат.
Результат зависит от того, где находится слушатель по отношению к колонкам. Правильное восприятие звучания достигается только в районе так называемого sweet spot (об этом ниже), предполагаемого месторасположения слушателя. При грамотном использовании алгоритмов CC получаются результаты, обеспечивающие воспроизведение звука, источники которого расположены в вертикальной и горизонтальной плоскостях. Фантомный источник звука может располагаться далеко вне пределов линейного сегмента между двумя колонками. Для создания убедительного SD-звучания достаточно двух звуковых каналов. Главное – это воссоздать давление звука на барабанные перепонки в левом и правом ухе таким же, как если бы слушатель находился в реальной звуковой среде.
На практике существуют проблемы, связанные с созданием базы HRTF функций при помощи манекена. Результат будет соответствовать ожиданиям, если манекен и слушатель имеют головы одинакового размера и формы, а также ушные раковины одинакового размера и формы. Только тогда можно корректно воссоздать эффект звучания в вертикальной плоскости и гарантировать правильное определение источников звука в пространстве. Записи, сделанные с использованием HRTF (binaural recordings), обеспечивают высококачественный SD-звук. Слушать такие записи желательно в специальных наушниках. CD с такими записями стоят существенно дороже стандартных музыкальных CD (имеется в виду лицензионная продукция). Корректно воспроизводить их через акустические системы позволяет техника CC. Главный недостаток метода – отсутствие интерактивности. Без механизмов, отслеживающих положение головы пользователя, обеспечить интерактивность при использовании HRTF нельзя. Бытует поговорка, что использовать HRTF для интерактивного 3D звука – это все равно, что использовать ложку вместо отвертки: инструмент не соответствует задаче.
Sweet Spot
Значения HRTF можно получить не только с помощью установленных в ушах манекена специальных внутриканальных микрофонов (inter-canal microphones). Используется еще и так называемая искусственная ушная раковина. В этом случае прослушивать записи нужно в специальных внутриканальных (inter-canal) наушниках, которые представляют собой маленькие шишечки, размещаемые в ушном канале, так как искусственная ушная раковина уже перевела всю информацию о позиционировании в волновую форму. Однако, согласитесь, удобнее слушать звук в наушниках или через колонки. При записи через inter-canal (микрофоны вокруг них, над ними и под ними) происходит искажение звука. Аналогично при прослушивании звук искажается вокруг головы слушателя. Поэтому и появилось понятие sweet spot, т е. области, при расположении внутри которой слушатель будет слышать все эффекты, которые он способен слышать от рождения. Соответственно, если голова слушателя расположена в таком же положении, как и голова манекена при записи (и на той же высоте), тогда будет получен лучший результат при прослушивании. Во всех остальных случаях будут возникать искажения звука как между ушами, так и между колонками. Необходимость расположения слушателя в sweet spot накладывает дополнительные ограничения и создает новые проблемы. Чем больше область sweet spot, тем большую свободу действий имеет слушатель. Поэтому разработчики постоянно ищут способы увеличить область действия sweet spot.
Частотная характеристика
Действие HRTF зависит от частоты звука; только звуки со значениями в пределах от 3 kHz до 10 kHz могут успешно интерпретироваться с помощью функций HRTF. Определение местоположения источников звука с частотой ниже 1 kHz основывается на определении времени задержки прибытия
разных по фазе сигналов, что позволяет определить общее расположение слева/справа источников звука и не помогает пространственному восприятию звучания. Восприятие звука с частотой выше 10 kHz почти полностью зависит от ушной раковины, поэтому не каждый слушатель может различать звуки с такой частотой. Определить местоположение источников звука с частотой от 1 kHz до 3 kHz очень сложно. Число ошибок при определении местоположения источников звука возрастает при снижении разницы между соотношениями амплитуд (чем выше пиковое значение амплитуды звукового сигнала, тем труднее определить местоположение источника). Поэтому надо использовать частоту дискретизации (вдвое большую значения частоты звука), соответствующей как минимум 22050 Hz при 16 бит для реальной действенности HRTF. Дискретизация 8 бит не обеспечивает достаточной разницы амплитуд (всего 256 вместо 65536), а частота 11025 Hz не обеспечивает приемлемой характеристики (так как максимальная частота звука соответствует 5512 Hz). Чтобы применение HRTF было эффективным, необходимо использовать частоту 22050 Hz при 16-битной дискретизации.
К чему мы идем?
Лучший метод воссоздания 3D-звука – использование минимальной частоты дискретизации 22050 Hz при 16 битах и использования дополнительных тыловых колонок при прослушивании. Такая платформа обеспечит пользователю реалистичное воспроизведение звука за счет воспроизведения через достаточное количество колонок (минимум три) для создания настоящего surround звучания. Преимущество такой конфигурации заключается в том, что когда слушатель поворачивает голову для фокусировки на звуке какого-либо объекта, пространственное расположение источников звука остается неизменным по отношению к окружающей среде, т. е. отсутствует проблема sweet spot.
Суть другого метода, который разработан Sensaura и называется MultiDrive, заключается в использовании HRTF функций на передней и на тыловой паре колонок (и больше) с применением алгоритмов CC. Sensaura называет алгоритмы СС– Transaural Cross-talk cancellation (TCC), заявляя, что они обеспечивают лучшие низкочастотные характеристики звука. Инженеры Sensaura взялись за решение проблемы восприятия звучания от источников звука, которые перемещаются по бокам от слушателя и по оси фронт/тыл. Sensaura для вычисления HRTF функций использует так называемое «цифровое ухо» (Digital Ear) и в их библиотеке уже хранится более 1 100 функций. Использование цифрового уха обеспечивает точное кодирование звука. Sensaura создает технологии, а использует интерфейс DS3D от Microsoft.
Технология MultiDrive воспроизводит звук с использованием HRTF функций через четыре или более колонок. Каждая пара колонок создает фронтальную и тыловую полусферу соответственно.
Фронтальные и тыловые звуковые поля специальным образом смещены с целью взаимного дополнения друг друга и за счет применения специальных алгоритмов улучшают ощущения фронтального/тылового расположения источников звука. В каждом звуковом поле применяется собственный алгоритм cross-talk cancellation (CC). Вокруг слушателя будет плавное воспроизведение звука от динамично перемещающихся источников до эффективного расположения тыловых виртуальных источников звука. Так как воспроизводимые звуковые поля основаны на применении HRTF функций, каждое из создаваемых sweet spot (мест с наилучшим восприятием звучания) способствует хорошему восприятию звучания от источников по сторонам от слушателя, а также от движущихся источников по оси фронт/тыл. Благодаря большому углу перекрытия результирующее место с наилучшим восприятием звука (sweet spot) покрывает область с гораздо большей площадью, чем конкурирующие четырехколоночные системы воспроизведения. В результате качество воспроизводимого 3D-звука существенно повышается.
Если бы не применялись алгоритмы cross-talk cancellation (CC), никакого позиционирования источников звука не происходило бы. Вследствие использования HRTF функций для технологии MultiDrive необходимо использовать алгоритмы CC для четырех колонок, требующие чудовищных вычислительных ресурсов. А значит, возникает возможность ошибки – это очень сложная задача, в некоторых системах применяются высокочастотные фильтры, которые срезают компоненты высокой частоты. Касательно технологии MultiDrive, Sensaura заявляет, что фирма применяет специальные фильтры собственной разработки, которые обеспечивают позиционирование источников звука, насыщенных высокочастотными компонентами, в тыловой полусфере. Главный минус подхода – это необходимость точного позиционирования тыловых колонок относительно фронтальных. В противном случае толка от HRTF на четырех колонках не будет.
Существуют и другие инновации Sensaura, а именно технологии ZoomFX и MacroFX, которые призваны улучшить восприятие трехмерного звука.
MacroFX
Большинство измерений HRTF производится в «дальнем» поле (far field), что существенным образом упрощает вычисления. Если источники звука располагаются на расстоянии до 1 метра от слушателя, т. е. в ближнем поле (near field), тогда функция HRTF неэффективна. Для воспроизведения звука от источников в ближнем поле с помощью HRTF функции и создана технология MacroFX. Идея в том, что алгоритмы MacroFX обеспечивают воспроизведение звуковых эффектов в near-field, в результате создается ощущение, что источник звука расположен очень близко к слушателю, так будто источник звука перемещается от колонок вплотную к голове слушателя, вплоть до шепота внутри уха слушателя. Достигается такой эффект за счет точного моделирования распространения звуковой энергии в трехмерном пространстве вокруг головы слушателя из всех позиций в пространстве и преобразования с помощью высокоэффективного алгоритма. При моделировании важна оптимизация уровней громкости и модифицированной системы расчета задержек по времени при восприятии звуковых волн от одного источника звука (ITD, Interaural Time Delay). Например, если источник звука находится посередине между ушами слушателя, то разница по времени при достижении звуковой волны обоих ушей будет минимальна, а вот если источник звука смещен вправо, эта разница будет существенной. Пока только MacroFX принимает разницу во внимание при расчете акустической модели. MacroFX предусматривает 6 зон, где зона 0 (это дистанция удаления) и зона 1 (режим удаления) будут работать точно так же, как работает дистанционная модель DS3D. Другие 4 зоны это и есть near field (ближнее поле), покрывающие левое ухо, правое ухо и пространство внутри головы слушателя.
Этот алгоритм интегрирован в движок Sensaura и управляется DirectSound3D, т. е. является прозрачным для разработчиков приложений, которые теперь могут создавать массу новых эффектов. Например, в авиасимуляторах можно создать эффект, когда пользователь в роли пилота будет слышать переговоры авиадиспетчеров так, как если бы он слышал эти переговоры в наушниках. В играх с боевыми действиями может потребоваться воспроизвести звук пролетающих пуль и ракет очень близко от головы слушателя. Такие эффекты, как писк комара рядом с ухом, теперь вполне реальны и доступны. Если установлена звуковая карта с поддержкой технологии Sensaura и с драйверами, поддерживающими MacroFX, то пользователь получит возможность слышать эффекты MacroFX даже в DirectSound3D играх, разумеется, в зависимости от игры эффект будет воспроизводиться лучше или хуже. Поддержка MacroFX включена в драйверы для карт, поддерживающих технологию Sensaura.
ZoomFX
Современные системы воспроизведения позиционируемого 3D-звука используют HRTF функции для создания виртуальных источников звука, но синтезированные виртуальные источники звука являются точечными. В реальной жизни звук зачастую исходит от больших по размеру источников или от композитных источников, которые могут состоять из нескольких индивидуальных генераторов звука. Большие по размерам и композитные источники звука позволяют использовать более реалистичные звуковые эффекты по сравнению с возможностями точечных источников звука. Так, точечный источник звука хорошо применим при моделировании звука от большого объекта, удаленного на большое расстояние (например, движущийся поезд). Но в реальной жизни, как только поезд приближается к слушателю, он перестает быть точечным источником звука. Однако в модели DS3D поезд все равно представляется как точечный источник звука, а значит, страдает реализм воспроизводимого звука (т. е. мы слышим звук скорее от маленького поезда, нежели от огромного состава, громыхающего рядом). ZoomFX решает эту проблему, вносит представление о большом объекте (например, поезде), как его собрании нескольких источников звука (композитный источник, состоящий из шума колес, шума двигателя, шума сцепок вагонов и т. д.).
Для ZoomFX создано расширение для DirectSound3D подобно EAX, с помощью которого разработчики игр воспроизводят звуковые эффекты и используют размер как параметр источника звука.
Компания Creative реализовала аналогичный подход, как в MultiDrive от Sensaura, в своей технологии CMSS (Creative Multispeaker Surround Sound) для карт SB Live. Поддержка этой версии технологии CMSS с реализацией HRTF и CC на четырех колонках встроена в программу обновления LiveWare 2.x. По своей сути, технология CMSS является близнецом MultiDrive, хотя на уровне алгоритмов CC и библиотек HRTF есть отличия. Главный недостаток CMSS такой же, как у MultiDrive – необходимость расположения тыловых колонок в строго определенном месте, а точнее параллельно фронтальным колонкам. В результате возникает ограничение, которое может не устроить многих пользователей. Место для фронтальных колонок давно зарезервировано около монитора. Место для сабвуфера выбирают любым, обычно это где-то в углу и на полу. А вот тыловые колонки пользователи располагают там, где считают удобным для себя. Не каждый захочет расположить их строго за спиной и далеко, не у всех есть свободное место для такого расположения.
Итак, если вы хотите получить наилучшее качество 3D звука, доступное сегодня, придется использовать звуковые карты, поддерживающие воспроизведение минимум через четыре колонки. Использование только двух фронтальных колонок – это конфигурация вчерашнего дня. Если вы собираетесь переходить на карты с поддержкой четырех и более колонок, то встает проблема выбора. Моя рекомендация состоит в том, чтобы основывать выбор на собственных ощущениях. Послушайте максимально возможное количество разных систем и сделайте именно свой выбор. Что нас ждет в ближайшем будущем?
EAR против LAS
EAR – в версии IAS 1.0 реализована поддержка воспроизведения DS3D, A3D 1.0 и EAX 2.0 через четыре и более колонок. За счет этого мозг слушателя получает дополнительные сигналы для правильного определения местоположения источников звука в пространстве.
В IAS 2.0 с поддержкой DirectMusic, YellowBook, EAX 2.0 и A3D 2.0, force-feed back (чувствуется именно давление звука, громкость и т. д.), декодирование в реальном времени MP3 и Dolby/DTS, реализована поддержка канала (сабвуфера). Кроме того, в IAS 2.0 реализовано звуковое решение, не требующее наличия звуковой карты (cardless audio solution) для использования с цифровой системой воспроизведения звука, к примеру, с USB-колонками или в тандеме с домашней системой Dolby Digital.
Главные достоинства IAS в сравнении с EAR:
* Один интерфейс для любой многоколоночной платформы, обеспечивающий одинаковый результат вне зависимости от того, как воспроизводится звук при использовании специального API.
* Имеется поддержка воспроизведения через две колонки (для старых систем), если многоколоночная конфигурация недоступна.
* Пользователь может подключить свой компьютер к домашней звуковой системе (Dolby Digital и т. д.), и IAS будет воспроизводить звук без необходимости модернизации. IAS эффективен на любой платформе и не требует специального аппаратного обеспечения, использует доступное аппаратное обеспечение и дает пользователю наилучшее качество звука на его системе. Для этого не нужно покупать специальных звуковых карт.
С развитием компьютерной индустрии звука можно в дальнейшем прогнозировать, что будущие звуковые карты и звуковые интерфейсы позволят разработчикам игр создавать потрясающие своей реальностью и производимым впечатлением эффекты. Библиотеки HRTF будут все дальше совершенствоваться. Возможно, чипы звуковых карт будут поддерживать декодирование AC-3 и других форматов цифрового звука. Перспективные звуковые карты должны поддерживать подключение более четырех колонок. Широкое распространение получат цифровые интерфейсы и цифровые подключения. Отдельной веткой будут развиваться дешевые решения на базе AMR. Пользователю лишь остается самая сложная часть – выбрать именно тот продукт, который устроит его по всем параметрам. Не следует забывать, что звук каждый слышит по-своему, поэтому, только послушав самостоятельно, человек составит правильное мнение о звуковой карте и звуковых технологиях.