Часть IV
Данные
Четвертая часть книги посвящена данным. В предыдущем издании, разделенном на три части, эту тему данных объединили со средствами связи, однако в последние несколько лет они стали занимать настолько важное место, что заслужили отдельной главы.
Слово «данные» часто встречается с определениями – например, большие данные, интеллектуальный анализ данных, наука о данных, – а также в названии новой профессии «специалист по обработке данных». По этим темам есть книги, учебные пособия, онлайн-курсы и даже дипломные работы в университетах. Давайте воспользуемся моментом и объясним их простым языком.
«Большие данные» означает только то, что мы имеем дело с большим объемом данных, и возразить тут сложно. Оценки того, сколько информации сейчас во всем мире, непрерывно растут. Раньше для таких прикидок вполне годились эксабайты (1018), но те времена прошли, и теперь нам нужны зеттабайты (1021). Можно с уверенностью предсказать, что в ближайшем будущем появятся йоттабайты (1024). Йотта – это приставка для самых больших значений в Международной системе единиц (СИ). Когда и ее станет не хватать, придется добавить еще один префикс, что-то вроде «за пределами йотты», вдохновившись детской книгой Доктора Сьюза «За пределами зебры!»’114.
Интеллектуальный анализ данных — это процесс отыскания потенциально ценной информации и полезных выводов, извлекаемых из всех этих «больших данных». Наука о данных — междисциплинарная область, которая с помощью статистики, машинного обучения и других методов пытается понять данные, установить их смысл и сделать прогнозы на их основе. Соответственно, специалист по обработке данных занимается такой деятельностью и, вероятно, надеется, что ему будут щедро платить за работу на таком модном и важном поприще.
Откуда все эти данные поступают? Что мы можем с ними сделать? Как поступить, если мы не желаем предоставлять информацию о себе?
В главе 11 мы обсудим многочисленные источники данных: как наши действия в Сети и в реальной жизни вносят вклад в так называемые «выхлопные данные» – огромный объем сведений о нас, который накапливается, пока мы просто живем в этом мире.
В главе 12 мы поговорим об искусственном интеллекте (ИИ) и машинном обучении – рассмотрим один аспект того, что делается со всеми этими горами данных. Кое-что из этого используется в наших интересах: благодаря обучению на больших данных стали возможны компьютерное зрение, распознавание изображений и голоса, обработка речевых сигналов, автоматический перевод и другие полезные приложения. Но недостаток здесь в том, что о нас могут узнать много информации, часто личной, которой мы бы не хотели делиться или, по крайней мере, допускать, чтобы кто-то ею воспользовался.
Машинное обучение (МаО) уже широко применяется, что порой вызывает серьезные опасения, так как компьютеры способны делать выводы на основе данных, распространяемых в поддержку расизма, дискриминации и других проблем этического толка. Приятно думать, что МаО само по себе объективно, однако во многих случаях его суждения лишь прячут скрытую предвзятость под личиной авторитетности.
В главе 13 мы обсудим варианты защиты: как уменьшить объем данных, неосознанно предоставляемых нами, и как ограничить их использование. Невозможно стать полностью невидимым или совершенно неуязвимым, но вы способны значительно улучшить вашу личную безопасность и защиту частной жизни.