Какое влияние данные и ИИ окажут на распределение геополитической мощи и экономического богатства? Это еще один аспект, зависящий в определенной мере от Соединенных Штатов и Китая, но широко затрагивающий весь остальной мир. Это еще один из ключевых вопросов нашего времени, пессимистический взгляд на который появился осенью 2018 г.
Во время нашей встречи с членами конгресса в Вашингтоне несколько сенаторов упомянули о том, что они прочли присланную им рукопись новой книги «Сверхдержавы искусственного интеллекта» (AI Superpowers). Ее автор Ли Кайфу — бывший топ-менеджер Apple, Microsoft и Google. Он родился на Тайване, а сейчас является одним из ведущих венчурных капиталистов в Пекине. Его аргументы отрезвляют. Он утверждает, что «мировой порядок на основе ИИ — это сочетание экономики, работающей по принципу "победитель получает все", с беспрецедентной концентрацией богатства в руках нескольких компаний из Китая и Соединенных Штатов». По его словам, «другим странам придется довольствоваться лишь объедками».
Что лежит в основе такого взгляда? Он связан в значительной мере с силой данных. Идея заключается в том, что фирма, которая имеет больше всех пользователей, получает больше всех данных, а поскольку данные служат пищей для ИИ, ее ИИ-продукт становится сильнее. Более сильный ИИ-продукт привлекает еще больше пользователей и, следовательно, приносит еще больше данных. Этот цикл приводит к росту масштаба, и в конечном итоге фирма вытесняет всех прочих с рынка. По мнению Кайфу, «ИИ естественным образом ведет к появлению монополии… после того, как компания захватит лидерство на начальном этапе. Непрерывно повторяющийся цикл подобного характера способен превратить это лидерство в непреодолимый барьер для входа других фирм».
Такая идея совершенно обычна на рынках информационных технологий. Ее называют «сетевым эффектом». Она с давних пор реализуется, например, в сфере разработки приложений для операционной системы. Как только операционная система занимает лидирующее положение, у всех сразу появляется интерес к разработке приложений для нее. Даже если появляется значительно более перспективная операционная система, к ней очень трудно привлечь внимание разработчиков приложений. Мы сполна воспользовались этим феноменом в 1990-х гг. с нашей системой Windows, но 20 лет спустя наткнулись на барьер с другой стороны, когда Windows Phone стала конкурировать с iOS и Android. Любая новая социальная платформа, которая решит сразиться с Facebook сегодня, столкнется с той же самой проблемой. Именно это в определенной мере обусловило поражение социальной сети Google Plus.
Как утверждает Кайфу, ИИ создает такой же сетевой эффект, но уже гипертрофированный, поскольку усиливает концентрацию власти практически во всех секторах экономики. Компания в любом из секторов, успешно реализовавшая систему на основе ИИ, начинает получать больше данных о своих клиентах и создает мощнейшую цепь обратной связи. В одном из возможных сценариев результат может быть еще хуже. Сбор и обработку данных могут взять в свои руки несколько гигантских технологических компаний, а всем остальным придется пользоваться их ИИ-сервисами. Со временем это, скорее всего, приведет к невиданному перемещению экономического богатства из производственных секторов к ИИ-гигантам. Если, как предполагает Кайфу, такие компании будут располагаться в основном на восточном побережье Китая и западном побережье Соединенных Штатов, то именно эти два района окажутся в выигрыше за счет всех остальных регионов.
Как относиться к подобным предсказаниям? Ведь в них, как и во многих других прогнозах, есть доля истины. А в данном случае эта доля, пожалуй, не так уж и мала.
ИИ зависит от облачных вычислений, разработки алгоритмов и массивов данных. Все три аспекта принципиально важны, однако наибольшее значение имеют данные — об окружающем мире, экономике и нашей повседневной жизни. С учетом быстрого развития машинного обучения в последнее десятилетие очевидно, что для разработчика ИИ не существует такого понятия, как избыток данных.
Данные в мире ИИ нужны не только технологическому сектору. Вот, например, как будет выглядеть новый автомобиль в 2030 г.? По оценке, данной в одном из недавних исследований, не менее половины стоимости автомобиля к тому времени будет приходиться на электронику и компьютерные системы по сравнению с 20% в 2000 г. Очевидно, что в 2030 г. автомобили будут постоянно подключены к интернету в целях беспилотного управления и навигации, а также коммуникации, развлечений, обслуживания и безопасности. Все это с высокой вероятностью потребует использования искусственного интеллекта и огромного объема данных, обрабатываемых в облаке.
Возникает вопрос, какие отрасли и компании будут получать прибыль от того, что все больше превращается в компьютер с ИИ на колесах? Будут ли это традиционные автопроизводители или технологические компании?
Ответ на этот вопрос имеет глубокие последствия. То, что часть экономической стоимости будет доставаться автопроизводителям, дает основание для более оптимистичного взгляда на долгосрочное будущее автомобильных компаний вроде General Motors, BMW и Toyota. И, конечно, это создает более светлые перспективы для зарплат и рабочих мест в этих компаниях, а также для тех, кто на них работает. В таком контексте очевидно, что данный вопрос очень важен для акционеров компаний, а также для регионов и даже стран, где находятся эти компании. Без преувеличения можно сказать, что экономическое благополучие таких мест, как штат Мичиган, Германия и Япония, зависит от ответа на него.
Если сказанное кажется притянутым за уши, вспомните о влиянии Amazon на книгоиздание — а теперь и на многие розничные секторы — или о том, что Google и Facebook сделали с рекламой. ИИ может точно так же повлиять на все, от авиаперевозок до фармацевтики и транспортировки грузов. Именно такое будущее рисует Ли Кайфу. Именно поэтому вполне правдоподобен вывод о том, что будущее может принести все более возрастающую концентрацию богатства у небольшого числа компаний, которые владеют данными, и в регионах, где они расположены.
Впрочем, как нередко случается, в будущее ведет не единственный и не жестко предопределенный путь. Хотя и существует риск того, что будущее окажется похожим на нарисованную Кайфу картину, у нас есть альтернативный курс. Нам нужно предоставить людям более широкий доступ ко всем инструментам, необходимым для использования данных. Нам также нужно выработать подходы к совместному использованию данных, которое открывает компаниям, местным сообществам и странам, как большим, так и маленьким, возможности для получения выгод. Короче говоря, мы должны демократизировать ИИ и данные, на которые он опирается.
Так что же нужно делать для создания более широких возможностей для небольших игроков в мире, где все зависит от количества данных?
Одним из тех, кто может ответить на этот вопрос, является Мэттью Траннелл.
Траннелл — директор по вопросам управления данными в Онкологическом научном центре Фреда Хатчинсона, ведущем центре по исследованию онкологических заболеваний в Сиэтле, который носит имя местной знаменитости, игравшей 10 сезонов за команду «Детройт Тайгерс» и возглавлявшей три команды из Главной лиги бейсбола.
К сожалению, успешная карьера Фреда оборвалась в 1964 г., когда он в свои 45 лет ушел из жизни в результате онкологического заболевания. Лечением Фреда занимался его брат Билл Хатчинсон, который работал хирургом. После кончины своего младшего брата Билл основал «Фред Хатч» — исследовательский центр, занимавшийся лечением онкологических заболеваний.
Траннелл приехал в Сиэтл в 2016 г. В центре тогда работали 2700 человек, которые занимали 13 зданий на южном берегу озера Юнион, откуда была видна самая узнаваемая достопримечательность Сиэтла — смотровая башня Space Needle.
Миссия центра Хатч амбициозна — победить рак и избавить людей от связанных с ним страданий. Разработкой новейших методов борьбы с этим заболеванием в нем занимаются ученые, среди которых три Нобелевских лауреата, врачи и исследователи. Центр тесно сотрудничает со своим соседом, Вашингтонским университетом, который известен в мире своими исследованиями в сфере медицины и компьютерных наук. Да и сам центр Хатч имеет внушительный список достижений, включая инновационные методы лечения лейкемии и других злокачественных заболеваний крови, пересадки костного мозга и иммунотерапии.
Будущее центра Хатча, как и будущее практически всех институтов и компаний на земле, зависит теперь от данных. По словам президента Хатча, Гари Гиллиланда, данные «изменят подходы к борьбе с онкологическими заболеваниями, диагностике и лечению». Он говорит, что исследователи превращают данные в «фантастический микроскоп», который позволяет видеть, «как наша иммунная система реагирует на заболевания вроде рака». В результате будущее биомедицины связано не только с биологией, но и с компьютерными науками и анализом данных.
Хотя Траннелл никогда не встречался с Ли Кайфу, признание этого факта заставило его встать на путь, который фактически оспаривает тезис автора, т.е. предположение о том, что будущее принадлежит только тем, кто контролирует крупнейший источник данных в мире. Ведь в таком случае даже первоклассной команде ученых из не самого большого города в далеком уголке Северной Америки было бы крайне проблематично оказаться в числе первых в поиске средства от одного из самых опасных заболеваний. Причина понятна. Несмотря на то, что центр Хатч имеет доступ к важным наборам данных в сфере здравоохранения, помогающие проводить исследования рака с использованием ИИ, их никак нельзя назвать крупнейшим массивом данных в мире. Как и большинство других организаций и компаний, Хатч для сохранения лидерства в будущем должен конкурировать, не имея полного набора необходимых данных.
К счастью, путь к успеху довольно очевиден. Он вытекает из двух особенностей данных, которые отличают их от большинства прочих ключевых ресурсов.
Прежде всего, в отличие от традиционных полезных ископаемых вроде нефти или газа данные создаются самими людьми. Как заметил Сатья на одном из наших пятничных совещаний в Microsoft, данные — это, пожалуй, «самый возобновляемый ресурс в мире». Есть ли еще какие-нибудь ресурсы, которые мы можем вот так непроизвольно создавать? Люди создают данные все быстрее и быстрее. Если мир чем-то и переполнен, то не конечными и дефицитными ресурсами, а вечно увеличивающимися в объеме данными.
Это не означает, что масштаб не имеет значения или что крупные игроки не получают преимущества. Преимущества у них, несомненно, есть. У Китая, где живет больше людей, чем в любом другом месте, больше возможностей генерировать данные, чем у любой другой страны. Однако в отличие, скажем, от Ближнего Востока, где сосредоточено более половины разведанных мировых запасов нефти, он не может монополизировать рынок данных. Люди везде создают данные, и есть все основания ожидать, что в этом столетии все страны будут генерировать данные, грубо говоря, пропорционально их населению и размеру экономики.
Китай и Соединенные Штаты могут стать первыми лидерами в сфере ИИ. Однако на Китай, несмотря на его размеры, приходится всего 18% мирового населения. А Соединенные Штаты представляют всего 4,3% мирового населения. Что касается размеров экономики, то здесь Соединенные Штаты и Китай имеют больше преимущества. На США приходятся 23% мирового ВВП, а на Китай — 16%. Однако, поскольку эти две страны, скорее всего, будут конкурировать, а не объединять силы, реальный вопрос заключается в том, сможет ли одна из них занять доминирующее положение в мире данных, если ее доля в глобальных данных составляет менее 25%.
Хотя единственного гарантированного варианта не существует, более широкие возможности для небольших игроков связаны со второй особенностью данных, которая в действительности оказывается еще важнее. Данные, как говорят экономисты, являются «неконкурирующими». Когда завод потребляет баррель нефти, этот баррель становится недоступным для всех остальных. А вот данные можно использовать вновь и вновь, и десятки организаций могут делать выводы и обучаться на одних и тех же данных без уменьшения их полезности. Ключевой момент таким образом заключается в распространении данных и их коллективном использовании.
Неудивительно, что лидером в подобном использовании данных является научное сообщество. Учитывая характер и роль научных исследований, университеты начали создавать депозитарии данных, которые можно использовать в различных целях. Microsoft Research тоже идет таким путем, предоставляя доступ к бесплатным массивам данных в таких областях, как обработка естественных языков и машинное зрение, а также естественные и общественные науки.
Именно такая возможность делиться данными и вдохновила Мэттью Траннелла. Он считает, что если мы хотим ускорить победу над раком, то лучше всего позволить исследовательским организациям свободно обмениваться данными.
Хотя это выглядит просто в теории, на практике все намного сложнее. Начать с того, что даже в пределах одной организации данные нередко попадают в изолированные хранилища, которые нужно как-то связать, а это сделать не так легко, особенно когда такие хранилища находятся в разных институтах. Данные могут храниться в нечитаемой для машин форме. Даже машиночитаемые данные чаще всего форматируются, маркируются и структурируются по-разному, что затрудняет их распространение и совместное использование. Если данные поступают от частных лиц, то возникают юридические проблемы, связанные с защитой неприкосновенности частной жизни. Даже когда данные не содержат персональной информации, приходится решать другие серьезные вопросы, связанные с процессом управления ими и правом собственности.
Характер этих проблем не только технический. Они имеют также организационный, юридический, социальный и даже культурный аспект. Как отмечает Траннелл, они обусловлены в определенной мере тем, что большинство исследовательских организаций выполняют значительную часть технической работы с помощью инструментов собственной разработки. По его словам, «помимо изоляции данных в пределах отдельно взятой организации такой подход нередко приводит к повторному сбору данных, потере историй болезни пациентов и результатов лечения, а также к отсутствию сведений о том, где еще можно найти потенциально полезную информацию. Вместе взятые эти проблемы мешают поиску нового, замедляют темпы исследования данных о здоровье населения и повышают затраты».
Все это, как считает Траннелл, затрудняет сотрудничество исследовательских организаций и технологических компаний. В результате замедляется создание достаточно больших массивов данных, необходимых для машинного обучения. Фактически неспособность преодолеть такие барьеры и создает условия для реализации того сценария доминирования ИИ, что нарисовал Ли Кайфу.
Траннелл и его коллеги в Хатче ясно осознали проблему, которую необходимо решить, и твердо нацелились на ее устранение. В августе 2018 г. Сатья, который сам является членом совета директоров Хатча, пригласил группу ведущих работников Microsoft на обед, чтобы заслушать доклад о работе центра. Траннелл рассказал о своем видении публичного ресурса, который должен позволить исследовательским институтам обмениваться данными по-новому. По его представлениям, несколько организаций должны были объединить свои данные в единый массив в партнерстве с технологической компанией.
Я воспринял презентацию Траннелла с большим энтузиазмом. Во многих отношениях эта проблема была похожа на то, с чем мы сами неоднократно сталкивались. План Траннелла напомнил мне эволюцию процесса разработки программного обеспечения. На заре истории Microsoft разработчики защищали свой исходный код как производственный секрет, и большинство технологических компаний и других организаций создавали свои собственные коды. Однако открытое программное обеспечение революционизировало создание и использование программ. Разработчики все чаще публикуют свои коды, что позволяет другим включать, использовать и улучшать их. Это открывает простор для сотрудничества разработчиков и помогает быстрее обновлять программные средства.
Когда началось такое движение, Microsoft не просто медлила с принятием изменения, а активно сопротивлялась ему вплоть до предъявления претензий в связи с нарушениями наших патентов компаниями, поставляющими продукты с открытым исходным кодом. Я был одним из главных участников этих акций. Однако со временем, особенно после того, как Сатья стал генеральным директором в 2014 г., мы признали такой подход ошибкой. В 2016 г. мы приобрели Xamarin, стартап, который поддерживает сообщество разработчиков открытого программного обеспечения. Его генеральный директор Нат Фридман перешел на работу в Microsoft и привнес в ряды нашего руководства взгляд со стороны.
К началу 2018 г. Microsoft использовала в своих продуктах более 1,4 млн компонентов с открытым исходным кодом, занималась их совершенствованием и даже открыла многие из своих собственных фундаментальных технологий. Показателем того, как далеко мы ушли, служит то, что Microsoft стала самым активным участником веб-сервиса GitHub, который служит платформой для разработчиков со всего мира и особенно для тех, кто занимается разработкой открытого программного обеспечения. В мае мы решили вложить $7,5 млрд в приобретение GitHub.
Возглавить этот бизнес предложили Нату, и в процессе работы над сделкой мы поняли, что нам нужно объединить силы с ключевыми группами разработчиков открытого программного обеспечения, т.е. сделать прямо противоположное тому, чем мы занимались десятилетие назад. Мы должны предоставить наши патенты для защиты разработчиков открытых программ, которые создали Linux и другие компоненты с открытым исходным кодом. В разговорах с Сатьей, Биллом Гейтсом и другими членами совета директоров я подчеркивал, что пришло время «перейти Рубикон». Мы были не на той стороне, а теперь, по общему мнению, настала пора изменить курс.
Я вспоминал это, когда Траннелл описывал свою открытую базу данных. Проблемы, несмотря на их сложность, во многом походили на те, что уже были решены сообществом разработчиков открытого программного обеспечения. В Microsoft все более широкое использование открытых программных средств заставило нас переосмыслить связанные с ними технические, организационные и юридические проблемы. А не так давно мы развернули одну из самых масштабных в технологическом секторе инициатив по защите персональной информации и решению юридических проблем, возникающих при совместном использовании данных.
Больше, однако, впечатляли не проблемы, а перспективы, нарисованные Траннеллом. Что, если нам удастся осуществить в сфере данных революцию, подобную той, которую совершил открытый исходный код в сфере программного обеспечения? А что, если этот подход позволит работать более эффективно, чем организации, ориентированные на внутренние ресурсы и собственные массивы данных?
Обсуждение этой темы напомнило мне встречу двухлетней давности, где мы в конечном итоге стали рассуждать о том, какое влияние совместное использование данных окажет на реальный мир.
В начале декабря 2016 г., через месяц после президентских выборов, в вашингтонском офисе Microsoft состоялась встреча, посвященная анализу влияния технологии на президентскую гонку. Две политические партии и различные предвыборные штабы использовали наши продукты, а также технологии других компаний. Группы демократов и республиканцев согласились встретиться с нами по отдельности для разговора о том, как они использовали технологию и чему научились.
Сначала мы встретились с консультантами команды из штаба Хиллари Клинтон. На протяжении всей кампании 2016 г. они считались генератором политических данных в стране. Они располагали крупным аналитическим департаментом, в активе которого был успех Национального комитета Демократической партии и успешная кампания по переизбранию Барака Обамы в 2012 г.
Ведущие эксперты избирательного штаба Клинтон создали то, что считалось самым передовым технологическим решением в сфере предвыборных кампаний — самую лучшую в стране базу политических данных. По словам консультантов в сфере технических решений и политических технологий, Робби Мук, блестящий руководитель штаба Клинтон, принимал большинство решений на основе выводов, генерируемых аналитическим департаментом. По имеющимся сведениям, в конце дня голосования на Восточном побережье ни у кого в штабе не было сомнений в том, что они выиграли гонку благодаря, не в последнюю очередь, возможностям по аналитической обработке данных. Примерно в обед аналитическая команда оторвалась от своих компьютеров, чтобы принять поздравления от сотрудников аппарата избирательного штаба.
Месяц спустя поздравления сменились гробовым молчанием относительно роли аналитики в поражении Клинтон. Команду штаба публично обвиняли в том, что она заметила важный для победы республиканцев сдвиг в Мичигане всего лишь за неделю до выборов, а в Висконсине — вообще только во время подсчета голосов. Так или иначе, все были по-прежнему уверены в полезности данных о кампании. Когда наша встреча подошла к концу, я задал присутствовавшей команде демократов простой вопрос: «На ваш взгляд, вы проиграли из-за результатов своего анализа данных или несмотря на них?»
Реакция была мгновенной и совершенно однозначной: «Без сомнения, мы сработали отлично. Поражение произошло несмотря на это».
После ухода команды демократов мы сделали перерыв, а потом встретились с ведущими республиканцами.
Их рассказ о ходе кампании был повествованием о неожиданных поворотах, которые привели к выдвижению кандидатуры Дональда Трампа и оказали сильное влияние на информационную стратегию его кампании. Вскоре после переизбрания Барака Обамы в 2012 г. Райнс Прибус стал во второй раз главой Национального комитета Республиканской партии. Он вместе с новым руководителем аппарата Майком Шилдсом пересмотрел сверху донизу работу комитета по следам поражения 2012 г., в том числе и технологическую стратегию. Как это нередко случается в быстро меняющемся мире технологий, там нашлась возможность обойти конкурента.
Прибус и Шилдс использовали информационные модели трех технологических фирм, консультировавших республиканцев, и встроили их во внутренние процессы Национального комитета. У них не было свободного доступа к пулу талантов из Кремниевой долины, которые симпатизировали демократам, поэтому они пригласили нового директора по технологиям из Мичиганского университета и молодого технолога из департамента транспорта Вирджинии для разработки новых алгоритмов для мира политики. Два руководителя Национального комитета Республиканской парии верили — и доказали на практике, — что таланты в сфере обработки и анализа данных есть везде.
Но самым главным для республиканской технологической стратегии было то, что Прибус и его команда сделали после. Они создали такую модель совместного использования данных, которая убедила не только кандидатов от республиканцев по всей стране, но и комитеты в поддержку кандидатов партии, а также другие консервативные организации в необходимости передавать свою информацию в объединенную базу. Шилдс считал, что очень важно собрать как можно больший объем данных из всех доступных источников. В определенной мере это объяснялось тем, что Национальный комитет Республиканской партии понятия не имел, кто именно должен быть кандидатом в президенты. На тот момент там не знали, какие вопросы или избиратели будут наиболее важными для потенциального кандидата. Именно поэтому команда комитета стала заниматься вопросами установления связи с максимально большим количеством организаций и накопления максимально возможного объема разнообразных данных. Это позволило создать значительно более богатую, чем у Национального комитета демократов или штаба Клинтон, базу данных.
Когда Дональд Трамп был выдвинут в качестве кандидата от Республиканской партии весной 2016 г., его штаб не мог похвастаться такой глубокой технологической инфраструктурой, как у Клинтон. Чтобы восполнить дефицит, Джаред Кушнер, зять Трампа, вместе с директором штаба по цифровым технологиям Брэдом Парскейлом занялся разработкой цифровой стратегии, которая опиралась на то, что у Национального комитета республиканцев уже было в наличии. Используя его базу данных, они выделили группу из 14 млн республиканцев, заявлявших, что им не нравится Трамп. Чтобы перетянуть эту группу противников на свою сторону, команда Трампа развернула «Проект Аламо» в Сан-Антонио, родном городе Парскейла, для объединения операций по сбору средств, рассылки информации и целенаправленного взаимодействия, особенно через Facebook. Они периодически рассылали избирателям информацию, которая, как показывал анализ данных, должна была интересовать их, например по опиоидному кризису и закону о доступном медицинском обслуживании (известном как Obamacare).
Команда республиканцев рассказала, как менялась картина, основанная на анализе данных, по мере приближения дня голосования. За 10 дней до выборов по оценкам они уступали два пункта Клинтон в ключевых колеблющихся штатах. Однако им удалось выделить 7% населения, которые еще не определились с тем, за кого отдать голос. Так вот, избирательный штаб стал бомбардировать электронными письмами 700 000 человек в этих штатах, которые, по мнению команды, могли проголосовать за Трампа, если придут на избирательный участок. Команда сделала все, чтобы убедить эту группу принять участие в выборах.
Мы спросили республиканцев, что нового они вынесли из этого опыта. Главным было следующее: не нужно, подобно команде Клинтон, тратить столько сил на сбор и анализ данных с нуля. Вместо этого лучше использовать одну из крупнейших коммерческих технологических платформ. Опираться нужно на широкую интегрированную экосистему, которая объединяет максимально большое число партнеров, как это сделал Национальный комитет Республиканской партии. При таком подходе необходимо сосредоточить ресурсы на дифференцированных инструментах, работающих на коммерческой платформе вроде той, что разработал Парскейл. Не стоит считать, что ваши алгоритмы так хороши, как вам кажется. Их следует непрерывно тестировать и совершенствовать.
В конце встречи я задал вопрос, аналогичный тому, что был поставлен перед демократами: «Вы победили потому, что ваши аналитические возможности были лучше, или несмотря на то, что штаб Клинтон был сильнее в этом плане?»
Их ответ был таким же быстрым, как у демократов, с которыми мы встречались раньше в тот же день: «Наши аналитические возможности, без сомнения, были лучше. Мы увидели, что ситуация в Мичигане стала склоняться в пользу Трампа, раньше штаба Клинтон. Помимо этого, мы заметили кое-что еще, о чем команда Клинтон даже не подозревала. Мы за два дня до выборов поняли, что Висконсин склоняется в пользу Трампа».
После ухода обеих политических команд я попросил наших сотрудников проголосовать. Кто считает, что более сильную аналитическую службу имела команда Клинтон, а кто — команда Трампа? Мнение было единогласным. Все присутствовавшие согласились с тем, что подход Райнса Прибуса и штаба Трампа более эффективный.
Штаб Клинтон полагался на свое техническое совершенство и лидерство. Штаб Трампа из-за безвыходной ситуации принял нечто более близкое к подходу на основе совместного использования данных, о котором говорил Траннелл.
Конечно, можно до бесконечности спорить о различных факторах, которые определили исход президентской гонки в 2016 г., особенно в таких колеблющихся штатах, как Мичиган, Висконсин и Пенсильвания, где голоса распределялись примерно поровну. Однако, на наш взгляд, модель, принятая Райнсом Прибусом и Национальным комитетом Республиканской партии, вполне могла внести свой вклад в изменение хода американской истории.
Если более открытый подход к данным смог сделать это, то трудно представить, что еще он может изменить.
Ключом к такому технологическому сотрудничеству являются человеческие ценности и процессы, а не просто фокус на технологии. Организациям нужно решить, стоит ли и каким образом делиться данными и если стоит, то на каких условиях. Существует ряд принципов, которые следует считать фундаментальными.
Первый из них — конкретный порядок защиты персональных данных. С учетом внимания к вопросам защиты персональных данных, это обязательное условие как для организаций, которые делятся данными о людях, так и для людей, которые предоставляют данные о себе. Ключевой проблемой является разработка и выбор методов безопасного обмена данными. В их число с большой вероятностью войдут так называемые методы «дифференцированной конфиденциальности», а также доступ к агрегированным или деидентифицированным данным или доступ только для поиска. Также здесь может использоваться машинное обучение для работы с зашифрованными данными. Могут появиться и новые модели, позволяющие людям решать, предоставлять ли им свои данные для совместного использования с определенной целью.
Вторая критически важная потребность — безопасное хранение данных. Очевидно, если данные объединяются и становятся доступными более чем одной организации, актуальные в последние годы вопросы кибербезопасности приобретают еще одно измерение. Наряду с постоянным повышением общей безопасности нам также необходимо усиливать безопасность совместной работы множества организаций.
Наконец, необходимы практические правила решения принципиальных вопросов прав собственности на данные. Мы должны дать группам возможность делиться данными без передачи права собственности на них и существующего контроля. Подобно землевладельцам, которые иногда позволяют другим ограниченно пользоваться своей землей без потери права собственности на нее, нам нужно выработать новые подходы к управлению доступом к данным. Они должны позволять группам совместно устанавливать условия, на которых происходит обмен данными, включая их использование.
При решении всех этих вопросов движение за открытые данные может воспользоваться опытом разработчиков открытого программного обеспечения. Поначалу их инициатива сдерживалась вопросами, связанными с лицензионным правом. Однако со временем появились стандартные лицензии на программное обеспечение с открытым исходным кодом. Похожее может произойти и в случае инициативы с данными.
Государственная политика также может помочь развитию движения за открытые данные. Процесс может начаться с увеличения объема доступных для публики правительственных данных и, следовательно, с уменьшения дефицита данных для небольших организаций. Показательным примером является решение Конгресса США в 2014 г. принять закон о цифровой отчетности и прозрачности, который расширяет объем публично доступной бюджетной информации. Администрация Обамы опиралась на него в 2016 г. в своих рекомендациях по открытым данным для ИИ, а администрация Трампа продолжила это движение, предложив интегрированную федеральную стратегию с целью «более полного использования данных в качестве стратегического актива» правительственными агентствами. Великобритания и Европейский союз предпринимают похожие инициативы. Однако сегодня только одна из пяти правительственных баз данных открыта для публики. В этой сфере предстоит сделать еще очень многое.
Открытые данные требуют, помимо прочего, дальнейшего развития законодательства о защите персональных данных. Законодательство в его нынешнем виде написано по большей части еще до того, как развитие ИИ начало ускоряться, и между ним и открытыми данными есть серьезные противоречия. Так, европейское законодательство сфокусировано на так называемых целевых ограничениях, т.е. на ограничении использования информации только теми целями, которые были определенны при сборе данных. Однако во многих случаях возникает потребность в новых возможностях для обмена данными при решении социально значимых задач вроде борьбы с онкологическими заболеваниями. К счастью, европейское законодательство допускает изменение целей использования данных, если это обоснованно и не противоречит первоначальной цели. Остается только вопрос, как интерпретировать это положение.
Не менее важны вопросы защиты интеллектуальной собственности, особенно в сфере авторского права. С давних времен считается, что любой может учиться с использованием объекта авторского права, например путем прочтения книги. Однако теперь некоторые ставят вопрос, может ли это право применяться в случае обучения машин. Если мы выступаем за более широкое использование данных, то очень важно, чтобы машины тоже могли делать это.
После выработки практических правил для собственников данных и определения государственной политики появляется еще одна принципиально важная потребность — создание технологических платформ и инструментов, которые облегчают и удешевляют совместное использование данных.
Это одна из тех потребностей, с которыми Траннелл столкнулся в центре Хатча. Он обратил внимание на разницу в работе, проводимой сообществом исследований рака и технологическими компаниями. Технологический сектор разрабатывает новые, передовые инструменты для управления, объединения и анализа разных баз данных. Однако, как заметил Траннелл, «из-за разобщенности тех, кто генерирует данные, и тех, кто создает новые инструменты, мы упускаем огромную возможность совершить значительные, изменяющие жизнь — и потенциально спасающие жизни — открытия, опираясь на огромный массив генерируемых ежедневно научных, образовательных и клинических данных».
Чтобы это стало возможным, пользователям нужна эффективная технологическая платформа, оптимизированная для работы с открытыми данными. Здесь уже начинает работать рынок. Когда технологические компании рассматривают разные бизнес-модели, у них есть из чего выбирать. Некоторые предпочитают собирать и консолидировать данные на собственных платформах и предлагать доступ к своим ресурсам как к технологическому или консультационному сервису. Во многих отношениях это похоже на то, что IBM делает со своей системой Watson, а Facebook и Google делают в мире онлайн-рекламы.
Интересно заметить, что в то время, когда Мэттью Траннелл выступал в тот августовский вечер, команда из Microsoft, SAP и Adobe уже работала над другой, но смежной инициативой. Эти три компании объявили месяц спустя о начале реализации проекта Open Data Initiative, который предполагал создание технологической платформы и инструментов, позволяющих организациям объединять данные, но при этом сохранять контроль над ними и право собственности. Новые технологические инструменты должны были дать организациям возможность идентифицировать и оценивать имеющиеся у них полезные данные, а также переводить их в машиночитаемый формат, пригодный для обмена.
Пожалуй, не меньше, чем все прочее, революции открытых данных требовалась возможность экспериментирования для выбора правильного пути. Во время обеда я подсел поближе к Траннеллу и стал расспрашивать его о том, что мы могли бы сделать вместе. Меня особенно интриговала возможность наращивания масштабов работы, которую Microsoft уже вела с другими исследовательскими онкологическими институтами в нашем уголке Северной Америки, включая ведущие организации в Ванкувере, Канада.
К декабрю эта работа уже дала плоды, и мы объявили об обязательстве Microsoft выделить $4 млн на поддержку проекта центра Хатча. Этот проект, получивший название Cascadia Data Discovery Initiative, должен был помочь защищенному обмену данными между центром Хатча, Вашингтонским университетом, а также Университетом Британской Колумбии и Агентства онкологических исследований Британской Колумбии в Ванкувере. Процесс пошел, к нему подключилось также некоммерческое партнерство California Data Collaborative, в котором города, службы водоснабжения и землеустроительные агентства объединяли свои данные для решения проблемы дефицита питьевой воды.
Все это позволяет с оптимизмом смотреть на будущее открытых данных, по крайней мере если мы не упустим возможность. Хотя одни технологии приносят некоторым компаниям и странам больше выгоды, чем другим, так бывает не всегда. Например, перед странами никогда не стоял вопрос мирового господства в области электричества. Любая страна могла использовать это изобретение, и дело упиралось лишь в то, кто окажется более прозорливым и внедрит его как можно шире.
В интересах всего общества мы должны сделать эффективное использование данных таким же доступным, как электричество. Это непростая задача. Однако при правильном подходе к совместному использованию данных и соответствующей поддержкой со стороны государства мир вполне способен создать модель, при которой данные не станут уделом нескольких крупных компаний и стран. Они могут быть для мира тем, чем и должны быть, — двигателем новой волны экономического роста.