Книга: Hello World. Как быть человеком в эпоху машин
Назад: Машины, которые видят
Дальше: Эксперимент с монахинями

Союз интеллектов

К хорошей программе для скрининга молочных желез у нас два требования. Она должна быть достаточно чувствительной, чтобы всегда отлавливать отклонения от нормы в пораженных раком молочных железах, не пропуская ни пикселя и не выдавая их за “чистые”. Но она должна также действовать достаточно избирательно, чтобы под подозрение не попала абсолютно здоровая грудь.

В главе “Правосудие” мы уже говорили о правилах чувствительности и специфичности. Это тесно связано с понятиями ложноотрицательного и ложноположительного результата (на мой взгляд, в научной литературе термины “Дарт Вейдер” и “Люк Скайуокер” для этих категорий были бы вполне уместны). В данном случае мы имеем ложноположительный результат, если здоровой женщине говорят, что у нее рак, и ложноотрицательный – если женщине сообщают, что все хорошо, хотя на самом деле она больна. Специфичный тест крайне редко дает ложноположительные результаты, в то время как высокочувствительный – мало ложноотрицательных. В какой области будет использоваться алгоритм – для прогноза повторных правонарушений, диагностики рака груди или, что мы еще увидим в главе “Преступность”, для выявления повторяющейся картины преступной деятельности – значения не имеет, идея одна и та же. Вы хотите получить как можно меньше и ложноположительных, и ложноотрицательных результатов.

Возникает проблема: зачастую, чтобы довести алгоритм до ума, приходится выбирать между чувствительностью и избирательностью. Повышая одно, вы, как правило, понижаете другое. Скажем, если вы отдадите приоритет полному исключению ошибочных отрицательных ответов, программа может пометить каждую молочную железу, которую увидела, как подозрительную. Чувствительность достигнет ста процентов, и цель будет достигнута. Но вместе с тем это означает, что огромное количество пациенток начнет лечиться, не имея в том нужды. Или, допустим, главное для вас, чтобы программа не давала ложноположительных результатов. Она будет пропускать мимо все снимки как чистые, то есть избирательность приблизится к ста процентам. Чудесная картина! Если только вы не принадлежите к числу тех женщин, у которых алгоритм не заметил раковой опухоли.

Надо отметить, что для врачей клинической диагностики специфичность не представляет трудности. Они почти никогда не находят по ошибке нехороших изменений в клетках, которые не являются раковыми. Но что касается чувствительности, тут человеку приходится поднапрячься. Уж очень легко нам упустить из внимания небольшую опухоль, даже явно злокачественную, и это пугает.

Не так давно люди и машины получили возможность помериться силами, и в этом споре стали заметны слабые стороны человеческой природы. В “матче”, получившем название CAMELYON16, сошлись команды программистов и патологи со всего мира; им предстояло выявить все случаи рака на четырех сотнях снимков. Чтобы упростить условия, были заданы два крайних случая – абсолютно здоровая ткань и инвазивный рак молочной железы. Кроме того, докторов не ограничивали во времени, они могли изучать образцы биопсии сколь угодно долго. Как и ожидалось, врачи в основном поставили верные диагнозы (точность 96 %) и не дали ни одного ошибочного – положительного ответа. Однако немалое число мельчайших раковых клеток, скрытых в тканях, проскочило мимо их внимания – они рассматривали снимки тридцать часов, но обнаружили лишь 73 % таких изменений.





Дело вовсе не в колоссальном объеме пикселей, которые необходимо охватить взглядом. Люди могут запросто прозевать очевидные аномалии, глядя прямо на них. В 2013 году ученые из Гарварда наложили на некоторые снимки грудной клетки изображение гориллы и предложили двадцати четырем не ожидавшим такого подвоха рентгенологам изучить снимки на предмет обнаружения рака. Восемьдесят три процента докторов гориллы не приметили, хотя система слежения за движениями глаз показала, что многие смотрели на нее в упор. Снимок приведен выше – можете попробовать сами.

У компьютеров проблема противоположная. Они будут азартно отбирать группы измененных клеток, даже абсолютно здоровых на самом деле. Так, в ходе матча CAMELYON16 лучшая из представленных нейросетей выявила рак с достойной восхищения точностью 92,4 %, но при этом выдала восемь ложноположительных результатов на образец, ошибочно пометив здоровые группы клеток как подозрительные. При столь низкой избирательности самые передовые современные программы явно склонны вешать раковый бейджик на каждую грудь и пока не могут давать собственное полноценное гистологическое заключение.

Впрочем, есть и хорошая новость: никто и не просит их это делать. Мы намерены объединить усилия человека и машины. Программа выполняет черную механическую работу – просматривает снимки и собирает огромный пул данных, отмечая некоторые критические области. Затем за дело принимается диагност-патолог. Даже если компьютер пометит клетки, которые на самом деле раковыми не являются, не страшно – врач сможет быстро все оценить и отсеять нормальные образцы. Такой алгоритмический подход к совместному предварительному скринингу позволяет не только сберечь время, но и достичь почти невероятных высот в точности диагностики – 99,5 %.

Как ни волшебно все это звучит, факт тот, что агрессивные опухоли врачи всегда находили безошибочно. Самыми каверзными оказываются промежуточные случаи, когда разница между раком и не раком не так бросается в глаза. Может ли и здесь помочь алгоритм? Вероятно, да. Но он не должен пытаться поставить диагноз с помощью профессиональных приемов, привычных для патолога. Однако алгоритм, который гораздо лучше умеет выискивать скрытые в тканях патологии, наверное, мог бы предложить более подходящий вариант сотрудничества – делать то, на что не способен живой доктор.

Назад: Машины, которые видят
Дальше: Эксперимент с монахинями