Два анализа лучше, чем один
Многие плохо понимают концепцию достоверности бинарных тестов. Если отталкиваться от тех, у кого нет искомого заболевания (это, как правило, подавляющее большинство населения), достоверность теста можно определить как долю тех, кто обоснованно попал в категорию здоровых, получив истинно отрицательный результат. Чем выше доля истинно отрицательных (и, следовательно, чем ниже процент ложноположительных результатов), тем достовернее тест. Такая доля истинно отрицательных называется специфичностью теста. Если тест специфичен на 100 %, то положительный результат получат только те, у кого действительно есть заболевание, – ложноположительных результатов не будет.
Но даже абсолютно специфичные тесты не гарантируют выявление всех, у кого есть болезнь. Конечно, достоверность тестов можно рассматривать как раз относительно таких людей. Будь вы на их месте, разве не были бы уверены в том, что главный показатель точности обследования – надежное выявление вашей болезни с первого раза? Так что, возможно, достоверность теста можно было бы определять, исходя из пропорции истинно положительных результатов – доли верно определенных носителей болезни. Такая пропорция известна как чувствительность теста. Тест со 100 % чувствительностью правильно предупредил бы всех пострадавших об их состоянии.
Точность же теста определяется как отношение количества истинно положительных результатов к общему количеству положительных результатов – как истинных, так и ложных. Низкая точность скрининга рака груди – всего 3,48 % истинно положительных результатов из всех положительных – удивила нас ранее в этой главе. Термином же «достоверность» обычно обозначают результат деления общего количества истинно положительных и истинно отрицательных результатов на общее количество тестируемых. Это логично, поскольку полученный результат показывает, насколько часто тест дает верный ответ, так или иначе.
Действительный уровень ошибок иммуноферментного теста на ВИЧ, который не прошел Марк Стерн, определить сложно. Тем не менее большинство исследований сходятся на том, что его специфичность составляет около 99,7 %, а чувствительность приближается к 100 %. Отрицательный результат теста означает, что реципиент почти наверняка не заражен ВИЧ, но в среднем 3 человека из каждых 1000 здоровых получат ложноположительный диагноз. В Великобритании распространенность ВИЧ составляет всего 0,16 %. Таким образом, из 1 000 000 случайно выбранных граждан Великобритании (рис. 7), в среднем 1600 будут ВИЧ-положительными, а 998 400 – нет. Из 998 400 ВИЧ-отрицательных пациентов, проходящих тест ИФА, даже со специфичностью 99,7 %, 2995 получат неверные положительные диагнозы. Этих ложноположительных результатов почти в два раза больше, чем 1600 истинно положительных. Как и в случае со скринингом рака молочной железы, поскольку распространенность ВИЧ низкая, а анализу ИФА до специфичности в 100 % не хватает совсем немного, точность теста будет довольно высокой – разделив количество тех, кто был верно определен как положительный, на количество всех, определенных как положительные, мы получим чуть более одной трети. Достоверность теста, однако, чрезвычайно высока. Он дает 997 005 правильных результатов (положительных или отрицательных) для каждого 1 000 000 протестированных людей – достоверность более 99,7 %. Даже очень достоверные тесты могут быть пугающе неточными.
Рис. 7. Из 1 000 000 граждан Великобритании, проходящих тест ИФА, 1600 будут правильно определены как ВИЧ-положительные, а 2995 – как ВИЧ-положительные, несмотря на то что у них нет этого заболевания
Один из простых способов снизить погрешность теста – просто провести второй тест. Поэтому первый тест на многие заболевания (как мы видели на примере обследования для выявление рака груди) – это скрининг с низкой специфичностью. Он предназначен для того, чтобы при минимальных затратах выявить как можно больше потенциальных случаев, пропуская при этом как можно меньше. Второй тест, как правило, является диагностическим и будет иметь гораздо более высокую специфичность, что исключит большинство ложноположительных результатов. Даже если тест с более высокой специфичностью недоступен, повтор одного и того же теста на всех пациентах с положительными результатами может значительно снизить погрешность. В случае с тестом ИФА первая попытка эффективно повышает распространенность ВИЧ-инфекции среди тех, кто был протестирован повторно, с 0,16 % до примерно 34,8 % – такова точность первого теста. При повторном тесте, как показано на древе принятия решений на рис. 8, большинство исходных ложноположительных результатов опровергаются благодаря низкой точности теста, в то время как истинные ВИЧ-положительные люди опять верно идентифицируются как таковые. Погрешность снижается до 1600/1609, что составляет примерно 0,6 %.
Рис. 8. Из 4595 положительных результатов на первом тесте 1600 истинных положительных результатов все равно будут идентифицированы как таковые, но количество ложных срабатываний сократится до 9
•
Тест, обладающий абсолютной чувствительностью и абсолютной специфичностью – то есть такой, который идентифицирует всех людей, у которых есть болезнь, и только их, – теоретически возможен. Такой тест может быть действительно признан 100 % точным.
Более того, известны и примеры таких тестов. В декабре 2016 года международная команда исследователей разработала анализ крови на болезнь Крейтцфельдта – Якоба . При контрольном испытании анализ верно выявил фатальное дегенеративное расстройство мозга (вызванное, как считается, употреблением в пищу говядины, полученной от животных, инфицированных коровьим бешенством) у всех 32 пациентов, которые имели эту болезнь (абсолютная чувствительность), без ложноположительных результатов (абсолютная специфичность) из 391 пациента контрольной группы.
Жертвовать чувствительностью ради специфичности (и наоборот) не обязательно, но на практике обычно происходит именно так. Ложноположительные и ложноотрицательные результаты обычно имеют отрицательную корреляцию: чем меньше ложноположительных результатов, тем больше ложноотрицательных, и наоборот. На практике эффективные тесты находят пороговый уровень, при котором можно провести грань между полной специфичностью и полной чувствительностью; баланс устанавливается между двумя крайними точками, как можно ближе к обеим.
Практическая необходимость такого компромисса объясняется тем, что обследования обычно направлены на поиск признаков и последствий болезни, а не на поиск самой болезни. Тест, который ошибочно определил, что Марк Стерн ВИЧ-инфицирован, не проверяет на наличие вируса ВИЧ. Скорее, он выявляет антитела, которые вырабатываются иммунной системой организма в попытке бороться с вирусом. Однако высокая концентрация антител, потенциально связанных с ВИЧ-инфекцией, может быть вызвана чем-то безобидным – той же прививкой против гриппа. Аналогичным образом большинство тестов на беременность в домашних условиях не выявляют наличие жизнеспособного эмбриона, растущего в утробе матери. Обычно эти тесты выявляют повышенный уровень гормона HCG, вырабатываемого после имплантации эмбриона. Такие косвенные индикаторы часто называют суррогатными маркерами. Тесты в ряде случаев дают неверный результат, так как положительную реакцию могут спровоцировать маркеры, подобные суррогатным.
Так, диагностические обследования на болезнь Крейтцфельдта – Якоба, как правило, основаны на сканировании мозга и биопсии, измеряющих потенциальное воздействие на мозг дефектных белков, которые являются основной причиной заболевания. К сожалению, характеристики, оцениваемые этими тестами, схожи с характеристиками у людей, страдающих слабоумием, что затрудняет диагностику. Вместо того чтобы искать слегка отличающиеся симптомы, которые можно было бы перепутать с симптомами других заболеваний, новый анализ крови на болезнь Крейтцфельдта – Якоба выявляет инфекционные белки, которые всегда вызывают заболевание. Вот почему тест может быть настолько убедительным: если найдены дефектные белки, то у этого человека есть болезнь, если нет, то он здоров. При тестировании на первопричину заболевания, а не на косвенный симптом, все оказывается проще простого.
•
Другая распространенная причина провала косвенных тестов возникает тогда, когда сам суррогатный маркер вызван не тем явлением, которое мы надеялись обнаружить. Анне Ховард было всего 20 лет, когда однажды утром в июне 2016 года она проснулась, чувствуя недомогание. Несмотря на то, что она и вот уже девять месяцев ее парень Колин не пытались завести ребенка, на всякий случай она решила сделать тест на беременность. С удивлением она смотрела, как на тесте, словно по волшебству, медленно проявляется вторая полоска. Этого никто из них не планировал, но, убедив себя в том, что из них выйдут хорошие родители, Колин и Анна решили оставить малыша и даже начали выбирать имя.
Через восемь недель после начала беременности у Анны началось кровотечение. Лечащий врач направил ее в больницу на УЗИ, чтобы убедиться, что с ребенком все в порядке. После УЗИ врачи сообщили Анне, что у нее выкидыш. Они сказали ей вернуться на следующий день для дальнейших подтверждающих анализов. На следующий день, однако, гормональный тест, не сильно отличающийся от домашнего теста на беременность, показал, что уровень HCG, «гормона беременности», все еще достаточно высок, чтобы показать жизнеспособность беременности. На этом основании врачи сообщили Анне, что диагностированный выкидыш – ложная тревога.
Неделю спустя у Анны снова началось кровотечение, уже с острой болью, поэтому она вернулась в больницу. На этот раз, опасаясь внематочной беременности, врачи провели обследование репродуктивного тракта Анны с помощью оптоволоконной камеры. К счастью, они не обнаружили никаких признаков того, что плод расположился не в том месте, но то, что росло в утробе Анны, не было плодом. Вместо здорового ребенка у Анны в матке росло гестационное трофобластическое новообразование – раковая опухоль. Опухоль увеличивалась примерно с той же скоростью, что и плод, и вырабатывала гормон HCG, служащий косвенным индикатором беременности, обманывая тесты, Анну и медиков, которые считали, что опасный для жизни рак – это нормальный здоровый ребенок.
Несмотря на то что такие опухоли, как у Анны, встречаются редко, другие виды опухолей также способны обмануть тесты на беременность и дать ложноположительный результат, производя суррогатный индикатор HCG. Так, по данным Доверительного фонда по борьбе с раком у подростков , тесты на беременность используются для диагностики рака яичек, по крайней мере в течение последнего десятилетия. На деле при таких тестах обнаружить опухоль яичек удается лишь изредка. Однако сам факт, что любой положительный результат теста на беременность в этом случае будет заведомо ложноположительным, свидетельствует в пользу того, что повышенный уровень гормона HCG вызван ростом опухоли.
Тесты на беременность изначально могут неверно срабатывать (что в некоторых случаях весьма полезно). Однако уровень гормона HCG в моче может быть настолько низким, что эти тесты способны давать и ложноотрицательные результаты. Ложноотрицательные результаты тестов на беременность хотя и менее распространены, чем ложноположительные, могут иметь значительные негативные последствия для будущих матерей. В одном случае хирургическое вмешательство, на которое женщина никогда не согласилась бы, зная о беременности, закончилось выкидышем . У другой женщины анализ мочи не показал внематочную беременность, что привело к разрыву фаллопиевой трубы и опасной для жизни потери крови .
•
В большинстве случаев, как только беременность надежно идентифицирована (в Великобритании, как правило, на 12-й неделе), мы отказываемся от косвенных гормональных маркеров в пользу ультразвукового сканирования, которое непосредственно демонстрирует наличие развивающегося плода в утробе матери. Однако цель УЗИ редко заключается в установлении беременности – скорее, в проверке нормального развития плода. Одно из исследований, которое проводится на этом этапе, – УЗИ воротниковой зоны. Оно предназначено для выявления сердечно-сосудистых нарушений у развивающегося плода, которые обычно связаны с хромосомными нарушениями, такими как синдром Патау, синдром Эдвардса и синдром Дауна. У большинства людей ДНК состоит из 23 пронумерованных пар хромосом. В случае тех трех нарушений, выявить которые призвано УЗИ воротниковой зоны, одна из пар имеет дополнительную хромосому, что делает из пары трио. Это явление называется трисомия.
УЗИ воротниковой зоны значительно сложнее бинарного теста. Оно не предсказывает абсолютно, есть ли у нерожденного ребенка синдром Дауна. Скорее, оно дает будущим родителям оценку риска развития заболевания. Тем не менее по результатам УЗИ беременности четко делятся на группы высокого и низкого риска, и родителям при передаче результатов теста сообщают, в какую категорию попадает эмбрион. Если нерожденный ребенок попадает в категорию низкого риска (вероятность развития синдрома Дауна ниже 1 к 150), то дальнейшее тестирование не предлагается, но если он попадает в категорию высокого риска, то часто предлагается более точный амниоцентез. Жидкость, содержащая клетки кожи плода, с помощью иглы забирается из околоплодного мешка. Прокол матки и околоплодного мешка сопряжен с риском: в 5–10 случаях на 1000 беременностей, проверяемых с помощью амниоцентеза, впоследствии происходит выкидыш. Однако повышенная специфичность теста делает риск амниоцентеза приемлемым для многих будущих родителей. Тест может быть более точным, чем УЗИ, так как он однозначно обнаруживает лишнюю хромосому в ДНК ребенка (извлеченную из клеток кожи плода), а не косвенный маркер. Он обнуляет ложноположительные результаты первого теста и предоставляет родителям с истинно положительными время для принятия обоснованного решения, сохранять ли беременность. Через сито этого теста проскальзывают ложноотрицательные результаты – родителям сообщают, что их будущий ребенок относится к категории с низким риском развития синдрома Дауна и не предлагают дальнейшее тестирование.
Флора Уотсон и Энди Баррелл столкнулись именно с этим. Еще в 2002 году, проведя в панике четыре недели своей второй беременности, Флора решила оплатить сравнительно новое исследование воротниковой зоны, назначенное в частном порядке на десятой неделе беременности. После УЗИ Флоре сообщили, что у нее крайне низкие шансы родить ребенка с синдромом Дауна. Фактически вероятность рождения ребенка с синдромом Дауна сравнили с вероятностью выиграть в лотерею – около 1 к 14 миллионам. Это обнадеживало куда больше, чем большинство родителей могло бы ожидать от подобных тестов. Флора была довольна тем, что ей не нужно проходить потенциально рискованную процедуру амниоцентеза, чтобы подтвердить то, что уже показало УЗИ воротниковой зоны. Теперь она могла счастливо сосредоточиться на подготовке к рождению своего второго ребенка.
Однако за пять недель до ожидаемой даты родов Флора заметила, что что-то не так. Ее нерожденный ребенок двигался все меньше и меньше. Три недели спустя она была в больнице, рожая Кристофера. Роды прошли быстро, и всего через полчаса после ее прибытия в больницу, Кристофер появился на свет – но он был весь скорченный, лилового цвета. В первый момент Флора подумала, что он мертв. Медсестры заверили ее и Энди, что Кристофер вполне живой, но следующая новость изменила будущее их семьи.
У Кристофера был синдром Дауна. Услышав об этом, Энди бросился вон из палаты, а Флора разрыдалась. Долгожданный праздник превратился едва ли не в поминки по потерянному «здоровому ребенку». Флора вспоминала, что следующие сутки она «просто не могла прикоснуться к нему или видеть его рядом с собой». Поэтому в первую ночь своей жизни Кристофер остался один, на попечении медсестер роддома. Когда остальные члены семьи приехали на встречу с новорожденным, все стало еще хуже. Отец Энди, которому уже приходилось растить ребенка с задержкой в развитии, уговаривал их оставить Кристофера в больнице. Мать Флоры даже не посмотрела на него.
Жизнь, которая ждала Флору и Энди, когда они привезли Кристофера домой, сильно отличалась от той, которую они предвкушали все прежние месяцы, положившись на результаты УЗИ воротниковой зоны. В итоге вся семья примирилась с состоянием Кристофера, но тяготы, связанные с уходом за ребенком-инвалидом, в конце концов сказались. Постоянный дефицит времени и усталость подточили их отношения, и Флора и Энди расстались. Флора уверена, что она не прервала бы беременность, если бы знала о синдроме Дауна у Кристофера заранее. Однако она все еще злится, что у нее не было времени, чтобы приспособиться и подготовиться к состоянию своего сына – подобные жалобы мы вновь услышим в шестой главе, обсуждая опасности автоматической алгоритмической диагностики. Возможно, рождение Кристофера и не привело бы к распаду семьи, если бы не ложноотрицательный результат теста.
•
Нравится нам это или нет, но ложноположительные и ложноотрицательные результаты неизбежны. Математика и современные технологии могут помочь решить некоторые из этих проблем, предоставляя нам самые современные методы вроде той же фильтрации сигналов, но другие проблемы мы должны научиться решать сами. Нам необходимо помнить, что профилактические скрининги – не диагностические обследования, и к их результатам надо относиться с известной долей сомнения. Это не значит, что мы должны полностью игнорировать положительный результат скрининга, но не стоит паниковать, не дождавшись результатов более точных анализов. То же самое относится и к индивидуальным генетическим тестам. Разные компании могут относить нас к разным категориям риска, и все они могут ошибаться. Опыт Мэтта Фендера, столкнувшегося с потенциально опасным для жизни диагнозом болезни Альцгеймера, подсказывает, что второй тест может дать более точный ответ.
Для некоторых тестов более точная версия недоступна. В таких случаях следует помнить, что даже повтор одного и того же теста может значительно повысить точность его результатов. Не стоит бояться запросить заключение у другого специалиста. Даже доктора, которые считаются признанными экспертами, не всегда досконально разбираются в тонкостях математики, несмотря на ауру уверенности, которой они окружены. Прежде чем начать паниковать по поводу результатов единственного теста, выясните его чувствительность и специфичность, а также подсчитайте вероятность погрешности. Оспорьте мнимую достоверность и верните себе право на интерпретацию. Как мы увидим в следующей главе, настойчивые сомнения в правоте авторитетных фигур, особенно тех, кто эксплуатирует законы математики, многим позволяли остаться на верной стороне закона – правда, некоторых при этом доводили до тюрьмы.