Ползай с пользой!

За последние годы я оказывал компьютерную поддержку сразу нескольким научным проектам. Среди них были поиски внеземного разума, погоня за очень большими простыми числами и тестирование алгоритмов для построения трехмерного изображения белковых молекул исходя из их линейной формулы.

Причина, по которой меня попросили помочь в столь широком спектре важных научных исследований, к сожалению, почти не связана с присущими мне способностями и талантами и объясняется главным образом наличием у меня персонального компьютера.

Ученые, которые работали над этими проектами и десятками им подобных, привлекали скрытые ресурсы, таящиеся в недостаточном использовании домашними компьютерами вычислительного времени, которое в общей сложности составляет миллионы часов и позволяет добавить мощности собственным компьютерам ученых, когда требуется производить сложнейшие математические расчеты. Большую часть времени, даже когда мы работаем с домашними компьютерами, они загружены не на полную катушку. Один из первых проектов по использованию сэкономленного вычислительного времени назывался SETI — эта аббревиатура расшифровывается как Поиск Внеземного Разума — и требовал переработки огромных массивов информации, которая ежедневно поступает с устройства, закрепленного на гигантском радиотелескопе на острове Пуэрто-Рико. Поступающие данные являют собой разновидность «белого шума» — это радиоволны, хаотично испускаемые звездами и галактиками. Однако ученые надеются, что однажды среди этого шума попадется сигнал от представителей внеземной цивилизации, который будет выделяться некоторой регулярностью на фоне общей хаотичности. Скачав и установив простенькую программу, пользователи домашних компьютеров могут подключиться к анализу этой информации, которая поступает к каждому участнику программы регулярными порциями. Присоединившись к этому проекту, вы можете наблюдать, как программа на вашем компьютере анализирует полученные данные, и мечтать о том мгновении, когда ваш компьютер заметит регулярно поступающий сигнал и поставит весь мир на уши, отправив сообщение об этом в SETI.

Это была хорошая задумка, которую тут же подхватили другие ученые: им тоже требовалась обработка больших массивов данных, которая не требует сложнейшего программного обеспечения — достаточно обычного домашнего компьютера.

Такие проекты существуют по сей день, для участия в них вам всего лишь нужно подать заявку и скачать ту или иную специальную программу. Но я наткнулся на еще один хитроумный способ использования вашего и моего компьютеров, который даже не требует от нас согласия и контроля. Блуждая по Интернету, вы наверняка сталкивались с тем, что некоторые сайты просят вас распознать и ввести код из искаженных и не сразу узнаваемых цифр или букв. Это делается для того, чтобы удостовериться: сайтом пытается воспользоваться человек, а не компьютерная программа, ищущая, как бы обдурить он-лайновые сервисы — например, скупить билеты на концерт для перепродажи и взвинтить цены. Эти слова или буквенно-цифровые коды называются CAPTCHA .

Новые горизонты использования CAPTCHA открылись в ходе проектов по оцифровке книг, чтобы сделать их текст доступным в сети Интернет. Раньше процесс этот был весьма трудоемким и требовал, чтобы люди считывали текст и набирали его на компьютере. Позднее возникли менее затратные методы с использованием OCR (Optical Character Recognition) — программ для оптического распознавания текста, которые на высокой скорости считывают книгу и преобразуют ее в электронный документ. Однако чем старее книга, тем сложнее компьютеру распознать текст. Викторианский роман, отпечатанный мелким шрифтом на пожелтевшей и крошащейся бумаге, — твердый орешек для компьютера, в то время как у человека при чтении такой книги никаких проблем не возникает.

И тут снова на арене появляется CAPTCHA. Чтобы получить доступ к интернет-сервисам, люди вводят подобные коды более ста миллионов раз в сутки. Ученые-компьютерщики из питтсбургского университета Карнеги-Меллон показали, как можно использовать этот пустой труд, убедив владельцев некоторых сайтов использовать в качестве CAPTCHA слова, которые компьютеру не удалось распознать при оцифровке старых книг. Так, подстраховавшись, чтобы быть уверенными в правильном распознавании и использовав для этого на разных сайтах одно и то же слово, они создали систему для обработки неразборчивых слов, которые прежде требовали распознавания специалистом и введения в текст в ручном режиме. Эта система оптического распознавания текста, получившая название reCAPTCHA, во время испытаний показала точность 99,1 % (для сравнения: точность стандартной OCR — 83,5 %). За год работы этого проекта пользователи Интернета невольно расшифровали почти 500 миллионов слов, что равноценно количеству не поддающихся расшифровке слов из 17600 книг.

Так что, в следующий раз, блуждая, лазая, ползая по Интернету и столкнувшись там с кодом в виде деформированного и трудно различимого слова, изо всех сил постарайтесь разобрать его, ведь, возможно, вы не просто покупаете билет на выступление любимой группы, но еще и пополняете хранилище сокровищ мировой литературы в Интернете.