Глава 12
Методы следствия
Исследования, которые Джон Сноу провел в поисках пути передачи холеры, считают одними из первых наблюдательных исследований. Они отличаются от экспериментальных тем, что исследователь не оказывает на участников никакого воздействия, а лишь наблюдает за происходящим и делает выводы.
Наблюдательные исследования используют в тех случаях, когда эксперимент не может быть проведен, например, по этическим причинам. Какими бы высокими ни были наши цели, мы не можем проводить эксперименты, которые принесут участникам только вред. Однако люди и сами в течение жизни подвергают себя воздействию разных факторов риска. Нам остается лишь найти этих людей и сравнить с теми, кто такому воздействию не подвергался.
Еще исследователи могут предпочесть наблюдательное исследование, если длительный эксперимент трудновыполним. Например, мы хотим изучить, как занятия спортом влияют на продолжительность жизни. Гипотетически рандомизированный эксперимент был бы лучшим способом найти ответ. Но даже если мы наберем юных добровольцев, разделим на две группы и предпишем одной из них всю жизнь заниматься спортом, а другой – не делать этого никогда, стоит ли рассчитывать, что и те и другие будут послушно выполнять предписания в течение всей жизни?
Реалистичнее изучить разницу в здоровье тех, кто по собственному выбору длительно придерживался того или иного образа жизни. Именно так и поступил шотландский эпидемиолог Джерри Моррис. Он обратил внимание на то, что водители лондонских двухэтажных автобусов более подвержены риску скоропостижной смерти, чем работающие в тех же автобусах кондукторы. Моррис предположил, что водителям вредит сидячий образ жизни, тогда как кондукторы целыми днями перемещаются по крутой лестнице с одного этажа автобуса на другой.
Чтобы проверить это предположение, Моррис отобрал 9376 гражданских служащих в возрасте 45–64 лет и наблюдал за ними девять лет. У тех из них, кто регулярно подвергал себя ощутимым физическим нагрузкам, сердечные приступы со смертельным исходом случались в два раза реже. Благодаря этому и последующим исследованиям Морриса представление о полезности физических упражнений стало общепринятым.
У наблюдательных исследований есть один серьезный недостаток, отличающий их от рандомизированных экспериментов. Всегда остается вероятность, что группы отличаются друг от друга не только тем параметром, который мы изучаем. Например, сравнивая тех, кто регулярно занимается спортом, с теми, кто этого не делает, мы можем фактически сопоставлять очень разных людей. Те, кто проводит много времени в спортзалах, наверняка лучше обеспечены. А значит, здоровье у них может быть лучше не из-за физической нагрузки, а в силу других преимуществ, которые дает высокий доход, – например, хорошего питания. Такой параметр, влияющий на два других параметра, способствуя их взаимосвязанному проявлению, называют спутывающей переменной. В нашем примере – это высококачественное питание.
Как же нам тогда определить, что именно стало причиной увеличения продолжительности жизни: в спорте дело или вмешались спутывающие переменные? Существуют приемы, позволяющие при анализе данных учесть влияние всех факторов, о существовании которых нам известно. Если мы подозреваем, что дело может быть в качестве питания, то нам нужно отдельно изучить продолжительность жизни хорошо питающихся людей и сделать при анализе поправку на это. Так же следует поступить и с другими потенциальными спутывающими переменными. Увы, даже после всех поправок могут остаться неучтенными те спутывающие переменные, о существовании которых мы просто не догадываемся. К сожалению, полностью устранить этот недостаток наблюдательных исследований невозможно.
Последствия этой особенности порой весьма серьезны. К девяностым годам XX века более тридцати наблюдательных исследований показали, что заместительная гормональная терапия у женщин в менопаузе может снизить риск заболеваний сердца и остеопороза. В итоге назначение заместительной гормональной терапии в менопаузе стало массовым. К 2001 году только в США ее принимали 15 миллионов женщин. Однако в 2002 году были опубликованы результаты большого рандомизированного контролируемого испытания (РКИ), в котором участвовали 16608 женщин в возрасте 50–79 лет, и результат оказался не столь радужным. Заместительная гормональная терапия не только не снижала риск болезней сердца и инсульта, но и повышала его на 29%. Не правда ли, разница ощутимая? Одно из возможных объяснений состоит в том, что женщины, самостоятельно решившие принимать заместительную гормональную терапию, и так были в среднем заметно здоровее остальной популяции, что и отразилось на результатах наблюдательных исследований. А при случайном разделении в ходе рандомизации на тех, кто принимает и не принимает гормоны, группы получились одинаковыми, и это позволило увидеть противоположный эффект.
Несмотря на этот недостаток, иногда наблюдательные исследования – единственный возможный метод. Благодаря им получена значительная часть медицинского знания, которым мы располагаем. Если такое исследование проведено на должном уровне, оно может помочь ответить на очень важные вопросы. При этом название не должно вводить в заблуждение – нам недостаточно как-то наблюдать за людьми и записывать свои мысли. Сбор и анализ информации необходимо правильно организовать, и это делает проведение хорошего наблюдательного исследования довольно трудоемкой задачей.
Существуют разные типы наблюдательных исследований, каждый из которых имеет свои плюсы и минусы и лучше подходит для решения своего круга задач.
Когортные исследования отслеживают когорты – группы людей, имеющих некоторую общую характеристику, например подверженных какому-то фактору риска. Контрольная когорта формируется из тех, кто фактору риска не подвергался. Отобрав когорты, исследователи в течение какого-то времени смотрят, что происходит с их здоровьем. Если заболевание возникает в исследуемой когорте чаще, чем в контрольной, можно предположить связь между фактором риска и болезнью.
Когортные исследования бывают двух основных типов. Ретроспективные (или исторические) полностью обращены на события прошлого. Мы сравниваем заболеваемость среди тех, кто в прошлом подвергался и кто не подвергался воздействию фактора риска. Примером служит исследование Джона Сноу, когда он сравнил заболеваемость в когортах, пивших воду двух разных водопроводных компаний. Изучаемым фактором риска была вода из загрязненной нечистотами части Темзы, то есть вода Southwark & Vauxhall. Контрольной когортой были клиенты Lambeth, пившие чистую воду.
Такие исследования относительно недороги, так как проводятся одномоментно и не предполагают длительного наблюдения за когортами. Их основной недостаток состоит в том, что события прошлого сложно реконструировать без искажений. Сноу столкнулся с этим, когда стучался в закрытые двери пустых домов, чтобы выяснить, какую именно воду пили умершие жильцы.
Проспективные когортные исследования обращены в будущее. Исследователи формируют когорты из тех, кто подвергается, и тех, кто не подвергается определенному воздействию. Затем их в течение длительного времени наблюдают и сравнивают частоту появления болезней. Такие исследования намного продолжительнее, а значит, дороже. Но их проводят чаще, чем ретроспективные: большое их преимущество в том, что исследователи не пытаются восстановить события прошлого, а сами в ходе исследования собирают данные о потенциально вредном воздействии и заболеваниях, поэтому они получаются более полными и точными.
Одно из самых известных, важных и длительных проспективных когортных исследований – Фрамингемское исследование сердца, которое продолжается и по сей день. 11 октября 2018 года ему исполнилось семьдесят лет. Толчком к его началу стала скоропостижная смерть американского президента Франклина Делано Рузвельта. История его болезни наглядно показывает, как плохо врачи понимали причины сердечных заболеваний еще в 30–40-х годах прошлого века.
Когда в 1932 году Рузвельт впервые баллотировался в президенты, бюллетень о состоянии его здоровья констатировал, что артериальное давление кандидата не превышает 140/100. Согласно записям врачей, впоследствии его давление неуклонно повышалось и к 1941 году достигало 188/105. Лечащий врач утверждал, что все в норме, поскольку давление президента “не превышает нормального для человека его возраста”. Однако Рузвельт чувствовал себя все хуже и хуже. Только в марте 1944 года он был госпитализирован в военно-морской госпиталь, и ему впервые поставили диагноз “гипертоническая болезнь, нарушение функции сердца”.
В отсутствие гипотензивных препаратов врачи мало чем могли помочь. Ему назначили диету с ограничением соли и дигиталис. Это принесло некоторое облегчение, но уже через месяц артериальное давление достигало 240/130. Два месяца спустя на Ялтинской конференции, где лидеры мировых держав обсуждали послевоенное устройство мира, Рузвельт выглядел тяжело больным человеком. Его лечащий врач записал: “Думаю, он проживет всего несколько месяцев”. Через несколько недель, на фоне артериального давления 300/190, Рузвельт скончался от обширного кровоизлияния в головной мозг.
Через три года сменивший его на посту Гарри Труман подписал Национальный закон о сердце, в рамках которого выделял на исследование сердечных заболеваний полмиллиона долларов. К этому времени в США сердечно-сосудистые заболевания уже стали причиной смерти номер один. Началу исследования предшествовала бурная дискуссия о том, на что именно целесообразно использовать деньги: на длительное наблюдательное исследование или на клинические испытания лекарств. Серьезные сомнения в эффективности созданных на тот момент препаратов склонили чашу весов в пользу первого варианта. Заявленной целью стало “изучение возникновения заболеваний сосудов сердца в нормальной популяции для определения вызывающих их факторов путем лабораторных исследований и длительного наблюдения”.
Местом проведения исследования был выбран небольшой город Фрамингем, расположенный недалеко от Гарвардской медицинской школы. Исследователи отобрали 5209 жителей города, мужчин и женщин от 28 до 62 лет, и начали первый раунд подробных опросов об образе жизни и привычках. Раз в два года участники эксперимента проходили тщательное обследование.
Первые находки были опубликованы уже в 1957 году. Исследователи обнаружили, что у страдающих повышенным артериальным давлением болезни сердца возникают в четыре раза чаще. Еще через несколько лет исследование показало, что повышенное артериальное давление связано и с инсультами. Несмотря на публикацию этих данных, многие врачи еще несколько лет по старинке считали нормальным систолическим давлением “100 мм ртутного столба плюс возраст пациента”. Хотя уже в 1964 году появились первые эффективные гипотензивные препараты бета-блокаторы, врачи отказывались назначать их семидесятилетним пациентам с систолическим давлением, превышающим 170, продолжая называть это нормой. Сейчас таким пациентам ставят диагноз “вторая стадия гипертонической болезни”.
Следующее важное открытие было опубликовано в 1971 году. Исследование показало, что вопреки общепринятому мнению именно систолическое, а не диастолическое давление должно быть целью терапии. В этом же году в исследование включили второе поколение добровольцев – детей тех, кого отобрали в 1948-м. Задачей второго набора была оценка возможного влияния наследственности.
Данные, полученные в ходе Фрамингемского исследования, составляют значительную часть наших знаний о причинах сердечно-сосудистых заболеваний. Были определены основные факторы риска: повышенное содержание липопротеидов низкой плотности – так называемого “плохого” холестерина, пониженное содержание липопротеидов высокой плотности и ожирение. Сейчас во Фрамингеме исследуют уже третье поколение добровольцев. Теперь исследование направлено на выявление генетических факторов риска. Для этого в 2006 году было проведено полное генотипирование всех живых на тот момент участников.
Еще один важный тип наблюдательных исследований – исследования случай-контроль. В отличие от когортных, в исследованиях случай-контроль изучают не фактор риска, а тех, у кого уже есть болезнь. Их сравнивают с контрольной группой, состоящей из тех, у кого болезни нет. Исследователи опрашивают тех и других и сравнивают их истории, чтобы определить, как отличалось их прошлое, и сделать на основе этого вывод о возможных причинах заболевания. Первым примером такого дизайна можно считать исследование Джона Сноу, когда он изучил предысторию заболевших холерой жителей Брод-стрит и сравнил с предысторией уцелевших работников пивоварни и мастерской, обнаружив, что первые, в отличие от вторых, пользовались водой из той самой колонки.
Исследования случай-контроль хорошо подходят для того, чтобы установить неизвестные факторы риска заболевания. А когортные нужны, чтобы изучать неизвестные последствия предполагаемых факторов риска.
История двух самых важных в современной эпидемиологии исследований случай-контроль началась с того, что тот самый Джерри Моррис, который сравнивал кондукторов и водителей двухэтажных автобусов, обратил внимание на увеличение смертности от сердечно-сосудистых заболеваний и рака легких, еще недавно исключительно редкого недуга. К 1930-м годам это тревожное явление стало еще заметнее. Специалисты предложили множество объяснений: автомобильные выхлопы, промышленное загрязнение воздуха, дым из каминных труб и от лесных пожаров, используемые в строительстве дорог смолы, радиация, газ радон, эпидемии гриппа и туберкулеза. Некоторые просто отрицали рост заболеваемости и объясняли растущие цифры улучшением диагностики и увеличением продолжительности жизни.
Как возможную причину рассматривали и курение табака. Как раз на это время пришлось стремительное изменение связанных с ним привычек и резкий скачок потребления. Если раньше табак обычно курили в трубках или жевали, то с начала XX века курильщики стали переключаться на сигареты. Их мягкость, дешевизна и удобство быстро завоевывали новых потребителей. Иной состав используемого в сигаретах табака способствовал изменению манеры курения и более быстрому развитию зависимости: в отличие от трубки, сигареты курят взатяг, так что никотин всасывается в основном в легких, а не во рту, и, поскольку поверхность легких намного больше, в кровь поступает больше никотина.
Сильный толчок распространению дала Первая мировая война: сигареты поставляли воюющим солдатам бесплатно, и многие ранее не курившие вернулись с войны зависимыми. После войны новых потребителей безостановочно поставляли ничем не ограниченные рекламные кампании. Курение сигарет преподносилось как не только модное и гламурное, но и полезное для здоровья времяпрепровождение. Рекламная кампания сигарет Lucky Strike предлагала, чтобы оставаться подтянутым и спортивным, выкурить сигарету каждый раз, когда вам хочется съесть сладкого. Производители первых сигарет с ментолом Kool рекламировали их как способ защитить себя от простуды и смягчить горло. А в 1946 году началась длительная кампания под лозунгом “Большинство докторов выбирает Camel”.
Знаете, если бы вы могли последовать за вечно занятым врачом, спешащим по вызовам своих пациентов, вы бы осознали, насколько это сложно – жить в таком ритме. “Перерыв” для врачей – это пауза, которой хватит только на то, чтобы выкурить сигарету. И поскольку врачи знают, какое это удовольствие – курить мягкие сигареты с хорошим вкусом, они уверены в том, какой бренд выбирать.
В ходе повторного общенационального опроса специалистам всех областей медицины в разных концах страны задавали один вопрос: “Какие сигареты вы курите, доктор?” И снова большинство назвало Camel.
Этот рекламный текст ссылается на реальный опрос, проведенный табачной компанией R. J. Reynolds Tobacco. Авторы текста забыли упомянуть лишь об одном: врачи давали такой ответ в первую очередь потому, что незадолго до опроса каждому его участнику дарили бесплатную коробку Camel.
За полвека потребление сигарет в США выросло с 54 штук на человека в год в 1900 году до 4345 штук в 1963-м. К этому времени в США курило уже более 40% населения. Рак легких распространялся столь же стремительно. Если в начале XX века речь шла о крайне редком заболевании, то в 1935–1939 гг. заболеваемость на тысячу мужчин в год составляла 9,7 человек, в 1940–1944 гг. – 13,0, в 1945–1949 гг. – 20,6, в 1950–1954 гг. – 31,1. Но пока предположение о связи курения сигарет и рака легких оставалось лишь одной из гипотез: слишком мало было данных в его пользу.
Переломным стал 1950 год, когда были опубликованы результаты двух исследований случай-контроль и оба показали, что между курением сигарет и раком легкого существует связь. Одно из них, основанное на 605 случаях рака легкого, было проведено Эрнстом Виндером и Эвартсом Грэхамом в США. Второе, опиравшееся на 1465 случаев, – британцами Ричардом Доллом и уже знакомым нам по стрептомициновому исследованию статистиком Остином Брэдфордом Хиллом. Хотя эти исследования не первыми показали, что курение может быть тем самым фактором риска, именно они благодаря масштабу и качеству стали отправной точкой для длительной и жаркой дискуссии.
В исследовании Долла и Хилла были изучены и исключены возможные спутывающие переменные. Было проанализировано и учтено множество факторов: возраст, пол, место проживания, загрязненность воздуха, тип домашнего отопления, место проведения опроса, особенности диагностики и, наконец, подробная история курения с учетом стажа, способа и количества употребляемого табака. Именно курение, особенно сигарет, оказалось искомым фактором, четко связанным с заболеваемостью раком легких.
Реакция на исследования была смешанной. Многие коллеги оценили качество работы и серьезность последствий. Другие сочли необходимым перепроверить результат, проведя аналогичные исследования, – вскоре было опубликовано несколько похожих, их авторы пришли к тем же выводам. Но некоторые отнеслись к работе Долла и Хилла скептически. Главными критиками стали статистики Джозеф Берксон и уже знакомый нам по эксперименту с пьющей чай леди Рональд Фишер.
Претензии Берксона основывались на том, что из табачного дыма еще не выделен активный канцероген и не продемонстрирован механизм его действия. Не отрицая статистических доказательств, Берксон требовал биологического подтверждения. Другие критики пошли еще дальше, требуя экспериментально доказать, что табачный дым или его компоненты вызывают рак легких у животных. Сначала попытки выделить из сигаретного дыма известные на тот момент канцерогены ни к чему не приводили. Не преуспели и табачные компании, проводившие исследования в собственных лабораториях в надежде найти в табаке одно проблемное вещество и создать не содержащие его безвредные сигареты. Но постепенно из табачного дыма удалось выделить не одно, а около шестидесяти веществ с канцерогенными свойствами. Что касается экспериментов по провоцированию рака легких у животных, первыми добились этого, используя табачную смолу, как раз производители сигарет. Это случилось еще в 1960 году, однако они предпочли не разглашать результат.
В силу технической сложности эксперименты с вдыханием дыма долго оставались безуспешными. Лабораторных мышей не заставишь курить взатяг, поэтому приходилось использовать дым-машины – устройства, вынуждающие мышей дышать табачным дымом. Однако паттерны дыхания грызунов в этих аппаратах все равно сильно отличались от того, как курильщики вдыхают дым. Поэтому более полезны лабораторные животные оказались при изучении пассивного курения. Эксперименты с ними показали, что периодическое присутствие в окружающем воздухе табачного дыма в тех же пропорциях, что при пассивном курении, тоже увеличивает заболеваемость раком.
Фишер же критиковал наблюдательные исследования как таковые. Он справедливо напоминал, что статистическая взаимосвязь двух параметров вовсе не обязательно означает наличие между ними причинно-следственной связи, подтвердить которую могут только рандомизированные эксперименты.
Представим, что у нас есть наблюдаемая и проверяемая взаимосвязь между двумя вещами [писал Фишер]. Помнится, британский профессор Удни Юл упоминал как раз такую, она будет хорошей иллюстрацией. Он говорил, что в те годы, когда в Великобританию импортировали много яблок, было зарегистрировано много разводов. Корреляция была большой, статистически значимой, даже очень значимой, и ошибки тут быть не могло. Но, к счастью, никто не пришел к выводу, что яблоки вызывают разводы или что разводы стимулируют импорт яблок.
Логики минувших дней сказали бы, что post hoc [лат. “после”] не то же самое, что propter hoc [лат. “вследствие”], или, другими словами, как сказали бы в начале нашего века, когда у статистиков уже был десятилетний опыт использования коэффициэнтов корреляции как инструмента в исследованиях, – корреляция не есть причинно-следственная связь.
Фишер был не совсем последователен. Порассуждав о преимуществах рандомизированных экспериментов, он тут же признавал, что в данном случае они неприменимы. А покритиковав недостатки наблюдательных исследований, призывал делать новые. Фишер предложил направить дальнейшие исследования на поиск генетического фактора, который и мог быть той самой спутывающей переменной. Хотя причин предполагать его существование не было, гипотетический фактор Х мог, по мнению Фишера, вызывать и предрасположенность к раку легких, и предрасположенность к курению.
В силу непоследовательности рассуждений Фишера и стремительного увеличения объема доказательств существования связи между курением и раком, призывы искать фактор Х не нашли достаточной поддержки у специалистов. Однако за поиски охотно взялись те, кто был больше всех заинтересован в дискредитации исследования Долла и Хилла, – производители сигарет. Они не смогли найти фактор Х, но эти исследования положили начало длящимся до сих пор попыткам влиять на решения властей и потребителей путем финансирования и избирательной публикации нужных исследований.
Подробности этой истории мы узнали в 1998 году, когда в результате досудебного соглашения между крупнейшими производителями табака и сорока шестью штатами США в открытом доступе появились более 14 миллионов внутренних документов табачных производителей. Любой желающий может ознакомиться с ними в библиотеке “Правда о табачной индустрии”. Если у вас нет времени перебирать миллионы документов, можно прочитать книгу The Cigarette Papers, где собрано все самое интересное.
Публикация внутренних документов вскрыла историю долгих и последовательных попыток дискредитировать сначала информацию об опасности сигарет для курящих, затем данные о вреде пассивного курения, затем эффективность таких ограничительных мер, как запрет на курение в общественных местах и запрет на размещение маркетинговой информации на сигаретных пачках.
Государственные решения, связанные со здравоохранением, требуют определенности и консенсуса. Поэтому табачные производители пытались создать впечатление, что ситуация спорна, а научная дискуссия продолжается. Это давало надежду отложить принятие неблагоприятных решений на неопределенный срок. Руководители одной из крупнейших табачных компаний Brown and Williamson так сформулировали свою стратегию: “Наш продукт – сомнение, оно лучший способ противостоять установленным фактам, существующим в сознании общества”.
Для достижения этих целей крупнейшими производителями был создан Табачный институт. Его задачей была дискредитация неудобных для индустрии исследований и заявлений медицинских организаций. Скорость, с какой Табачный институт публиковал опровержения, поражала воображение: они выходили в тот же или на следующий день. А одно из заявлений главного военного хирурга США было непостижимым образом опровергнуто за день до того, как его опубликовали.
Табачный институт не только критиковал неудобные исследования, но и проводил свои. Сначала он стремился доказать отсутствие опасности для здоровья курильщиков, затем отступил на следующий рубеж и сосредоточился на противодействии информации о вреде пассивного курения. Для этого в ключевых странах были созданы команды контролируемых корпоративными юристами научных консультантов. Их задачей было писать обзоры научной литературы и проводить исследования, которые помогут “поддерживать неопределенность”. Выводы работ, проспонсированных производителями табака, и работ независимых исследователей были, как правило, диаметрально противоположны. Табачный институт достигал нужного результата путем избирательной публикации статей. Если выводы исследования были неблагоприятны, их не допускали к публикации. Решения в каждом случае принимали юристы, которые пользовались во внутренней переписке системой кодовых обозначений: например, слово “рак” заменяли на “зефир”.
Опубликованные документы позволили проанализировать связи табачной индустрии с медицинскими журналами. Так, например, сделанный в 2017 году анализ публикаций журнала Regulatory Toxicology and Pharmacology показал, что авторы пятидесяти из пятидесяти двух опубликованных с июня 2015 года по июнь 2017-го статей, имеющих отношение к курению табака, связаны с производителями сигарет. Выводы всех этих работ нейтральны или благоприятны для последних. Лишь две статьи написаны исследователями, не имеющими связей с табачной индустрией, и выводы обеих неблагоприятны.
Как показывает этот анализ, производители сигарет не собираются сдаваться. Около миллиарда жителей земли продолжают курить, ежегодная выручка продавцов табака – более триллиона долларов США. При этом их интересы прямо противоположны интересам общества. Идеальный для человечества исход – полный отказ от курения – неизбежно приведет к краху этой огромной индустрии. Она, безусловно, будет бороться за свои рынки до конца, и мы наверняка услышим еще множество связанных с ней увлекательных историй.
Замечания Фишера о преимуществе рандомизированных экспериментов перед наблюдательными исследованиями абсолютно справедливы. Но следует ли из этого, что в ситуации, когда невозможно провести эксперимент, мы должны сидеть, сложа руки? Или какого-то количества неэкспериментальных доказательств может быть достаточно, чтобы счесть данные в пользу причино-следственной связи между этиологическим фактором и болезнью убедительными и начать действовать, предотвращая новые случаи болезни и гибель людей?
Девять критериев, с помощью которых можно оценить неэкспериментальные доказательства и принять решение, считать ли данные за причинно-следственный характер связи достаточными, были сформулированы в 1965 году Остином Брэдфордом Хиллом. С некоторыми изменениями и дополнениями они используются в эпидемиологии по сегодняшний день. Вот они.
Сила эффекта
Слабый эффект не говорит об отсутствии причинно-следственной связи, но чем он сильнее, тем вероятность больше. Хилл привел в пример связь между раком мошонки и профессией трубочиста. Болезнь встречается у представителей этой профессии в 200 раз чаще, чем у остальных.
Воспроизводимость
Результат должен быть тем же при повторных исследованиях, проводимых в других местах, с другой популяцией и другими методами.
Биологический градиент
Еще его называют дозозависимостью эффекта. Чем чаще и интенсивнее воздействие фактора риска, тем больше вероятность заболеть. Например, вероятность рака легкого тем выше, чем дольше человек курит и чем больше выкуривает. Поэтому бросать курить есть смысл даже при большом стаже.
Биологическое правдоподобие
Наличие убедительного объяснения, как именно этиологический фактор вызывает болезнь. Впрочем, Хилл справедливо заметил, что мы всегда ограничены уровнем нашего знания. Если вы читали книгу подряд, то знаете уже немало примеров, когда факторы риска были определены верно, несмотря на то что уровень знаний еще не позволял объяснить механизм.
Согласованность со всей имеющейся информацией
Под этим следует понимать, что вся имеющаяся информация указывает в одном направлении. Хилл приводил в пример данные гистологических исследований, которые показывали характерные изменения бронхиального эпителия у курящих задолго до появления рака. Не очень просто провести четкую границу между этим критерием и предыдущим.
Эксперимент
Царь доказательств. Хилл подчеркивал, что корректно поставленный эксперимент, когда он возможен, имеет больший вес, чем другие критерии. Можно принимать в расчет и результаты экспериментов на животных, хотя они, безусловно, имеют меньшую доказательную силу, чем исследования на людях.
Направленность во времени
Воздействие фактора риска, безусловно, должно предшествовать болезни.
Аналогия
Хилл считал, что если похожий фактор риска вызывает похожее заболевание, то это увеличивает вероятность причинно-следственной связи и в рассматриваемом случае. Например, курение трубки значительно повышает риск рака ротовой полости.
Специфичность
Хилл считал, что вероятность причинно-следственной связи выше, когда заболевание вызывается только одним фактором, а этот фактор, в свою очередь, вызывает только одно заболевание. Сейчас многие эпидемиологи критикуют этот критерий как не соответствующий современным представлениям. Он справедлив для инфекционных, но не работает для хронических заболеваний, которыми в основном и занимается современная эпидемиология.
В случае курения и рака легких справедливы все критерии Хилла, кроме отвергнутого впоследствии критерия специфичности. Сумма накопленных улик постепенно убедила большинство врачей и медицинские организации в том, что за статистической связью в этом случае кроется причинно-следственная. В 1957 году Совет по медицинским исследованиям Великобритании опубликовал резкое и однозначное заявление, констатирующее, что большинство случаев рака легких вызвано именно курением. Двумя годами позже похожее заявление сделал главный военный хирург США: “Вес существующих на данный момент доказательств указывает на то, что курение – основной этиологический фактор роста заболеваемости раком легких”.
Единодушная позиция медицинских организаций, включая ВОЗ и Международное агентство по исследованию рака, побудила многие страны к постепенному ограничению рекламы сигарет. Сейчас в некоторых странах, в том числе в России и Евросоюзе, реклама табачных изделий полностью запрещена.
К началу 1980-х накопилось достаточно доказательств, что пассивное курение тоже, хоть и в меньшей степени, способствует возникновению рака легких. Сейчас запрет на курение в помещениях действует в большинстве развитых стран. Российское законодательство в этой части – одно из самых прогрессивных. Увы, пренебрежение законом на практике делает даже лучшие законы бессмысленными. Туалеты российских аэропортов и другие общественные места давно превратились в “дым-машины”, только вместо лабораторных животных в них – дети и беременные женщины.
Меры по борьбе с курением уже начали давать плоды. Снижение заболеваемости раком легких заметно и в мировом масштабе, но особенно – в тех странах, которые начали борьбу раньше и вели ее активнее. В США со времени заявления главного военного хирурга потребление сигарет снизилось вдвое. Примерно с двадцатилетней задержкой, обусловленной периодом между началом курения и возникновением рака, начала снижаться и смертность от рака легких. Национальный институт рака подсчитал, что только до 2000 года уменьшение потребления сигарет в США предотвратило около 800 тысяч смертей.
Голоса, подвергающие сомнению существование причинно-следственной связи между курением и его трагическими последствиями, изредка раздаются и сейчас. Судя по всему, причина непрекращающегося противостояния совсем не в том, что мы никогда не сможем провести эксперимент на людях. Скорее, она кроется в сильной зависимости, которую вызывает курение, и в триллионном бюджете табачной индустрии. Как заметил один эпидемиолог: “Мы не услышали бы и тысячной доли этих возражений, если бы дело касалось шпината”.
Благодаря (в числе прочего) изучению последствий курения во второй половине XX века фокус внимания эпидемиологии постепенно сместился с инфекционных заболеваний на хронические. Конечно, эпидемиологи и сейчас продолжают искать причины инфекций и способы их предотвратить. Одно из относительно недавних достижений в этой области – обнаружение связи между вирусом иммунодефицита человека и СПИДом. Но основные усилия направлены на хронические болезни, в первую очередь на болезни сердечно-сосудистой системы и рак – наиболее распространенные причины смерти в современном мире.
Второе важное следствие дискуссии вокруг курения: представление о факторах риска проникло в общественное сознание. Идея была не только понята и принята, но и, как это часто бывает, доведена до крайности. Вскоре значительная часть природных явлений и физических объектов разделилась в общественном сознании на две категории – те, что вызывают болезни, и те, что их предотвращают. Особенно досталось продуктам питания.
Обслуживая наш интерес к этой теме, СМИ охотно публикуют новости о влиянии еды на здоровье. Значительная часть околомедицинских новостей в медиа посвящена именно этой теме, и объем информации таков, что сориентироваться в нем крайне сложно. Сегодня новости рассказывают, что кофе снижает риск болезни Паркинсона, завтра – что он же вызывает гипертонию. Сегодня в заголовках “два бокала красного вина в день защищают от болезней сердца”, а уже завтра “ежедневный бокал красного вина вызывает рак груди”. Особенно много публикаций касается онкологических заболеваний: “бекон вызывает рак кишечника”, “помидоры защищают от рака простаты”, “зеленый чай провоцирует рак щитовидной железы” – этому списку нет конца.
Стоит ли следовать каждой рекомендации, исключив из рациона все продукты питания, заподозренные в связи с болезнями? Если вы примете такое решение, имейте в виду, что эта задача не из легких. Онколог Джонатан Шонфельд и статистик Джон Иоаннидис решили проверить, много ли пищевых продуктов упоминается в научных статьях в связи с онкозаболеваниями. Они случайным образом выбрали из “Поваренной книги Бостонской кулинарной школы” несколько рецептов, содержавших в общей сложности пятьдесят ингредиентов. Для сорока из них удалось найти хотя бы одно исследование, изучавшее статистическую связь между употреблением продукта и раком. Те десять, для которых ни одной такой публикации не нашлось, используются относительно редко. Однако и в этих случаях отыскались исследования, изучавшие отдельные вещества в этих пищевых ингредиентах – например, содержащийся в лавровом листе эвгенол или выделяемые из тимьяна терпеноиды. Если для какого-то ингредиента исследований было несколько, лишь изредка все они приходили к однонаправленным выводам. Исследователи были единодушны только в отношении вреда соли, свинины, бекона, а также пользы оливок. Но касательно остальных ингредиентов – яиц, кофе, вина, картофеля, говядины, хлеба, молока, помидоров, чая, сахара, моркови и масла – одни публикации сообщали о повышении риска рака, другие о снижении.
Противоречивыми результаты выходили по нескольким причинам. Во-первых, рак – это не одно, а более сотни разных заболеваний, и снижение риска для одного типа рака может сопровождаться повышением риска для другого. Во-вторых, в некоторых случаях был найден положительный эффект в один период жизни и отрицательный – в другой. Так, одна из работ заключала, что употребление зеленого чая повышает у женщин вероятность рака щитовидной железы до наступления менопаузы, но снижает после. В-третьих, различия в результатах могли носить случайных характер. В пользу этого говорит то, что эффект наблюдался, как правило, слабый, на минимально приемлемом уровне статистической значимости, как, например, в уже процитированном исследовании про зеленый чай. Показательно, что более крупные исследования, суммирующие данные остальных, были гораздо сдержаннее в выводах и реже обнаруживали статистическую связь. Не будем забывать и о том, что корреляция еще не означает причинно-следственной связи. Может существовать спутывающая переменная, изменения которой от популяции к популяции способствуют разнообразию результатов.
Так стоит ли начинать питаться одними оливками? Не отказаться ли на всякий случай от тех продуктов, между употреблением которых и риском рака была обнаружена статистическая связь? Как бы ни были замечательны оливки, радикальное изменение диеты преждевременно.
Стоит учитывать еще один момент. Такие публикации часто сообщают только об относительном риске, игнорируя другие важные эпидемиологические параметры. Относительным риском (ОР) называют отношение абсолютного риска для подверженного воздействию фактора человека к абсолютному риску для неподверженного. Или, проще говоря, во сколько раз увеличивается риск для человека, если он подвергнут данному воздействию. При этом под абсолютным риском (АР) понимают соотношение случаев болезни в группе к количеству человек в группе, или, проще говоря, шансы человека заболеть.
Если относительный риск больше единицы, то воздействие вредно. Если меньше, то оно дает защитный эффект. Если значение очень близко к единице, то его можно игнорировать. Так, проведенное в 2010 году наблюдательное исследование обнаружило, что употребление овощей и фруктов защищает от рака, при этом относительный риск равен 0,99. Овощи и фрукты полезны по множеству причин, но есть их исключительно из-за этого крохотного эффекта не очень разумно.
☛ Но нельзя впадать и в другую крайность, игнорируя любые результаты с ОР < 2,0, как предлагают некоторые специалисты. Борясь против распространения информации о вреде пассивного курения, табачный производитель Philip Morris тайно инициировал кампанию по борьбе “за настоящую науку”. Целью Philip Morris было изменение стандартов оценки эпидемиологических доказательств таким образом, чтобы факторы риска с ОР < 2,0 игнорировались. Достижение этой цели было бы огромным успехом: относительный риск для пассивного курения равен примерно 1,3. Однако затея не нашла поддержки у большинства эпидемиологов, и кампания провалилась.
Относительный риск трудно интерпретировать, если у нас нет информации об абсолютном риске. В начале 2018 года было опубликовано исследование случай-контроль, показавшее, что грудные импланты увеличивают вероятность возникновения анапластической крупноклеточной лимфомы более чем в 400 раз (ОР = 422). Размер эффекта в этом случае очень велик. Но давайте посчитаем, как это касается отдельно взятой пациентки, решившей установить импланты.
Анапластическая крупноклеточная лимфома – крайне редкое заболевание. Абсолютный риск его появления к 75 годам составляет лишь 0,35 случаев на миллион женщин. При том, что после установки имплантов риск увеличивается в 422 раза, абсолютный риск становится равным 147,7 случаям на миллион. Или одному случаю на 6770 поставивших импланты женщин. Вероятно, одна и та же информация будет влиять на решение пациентки, устанавливать импланты или нет, по-разному, в зависимости от того, сообщили ей об увеличении относительного риска в 400 раз или о том, что после установки имплантов риск для нее составит 1 к 6770.
Нагляднее всего отражают пользу или вред воздействия индексы потенциального вреда и потенциальной пользы. Индекс потенциального вреда, ИПВ (англ. number needed to harm, NNH), показывает, сколько человек должны подвергнуться воздействию, чтобы у одного из них появились нежелательные последствия. Это дробь, у которой в числителе единица, а в знаменателе повышение абсолютного риска – разница между абсолютными рисками у тех, кто подвергался воздействию, и тех, кто не подвергался.
Для оценки эффективности лечения используют очень похожий индекс потенциальной пользы, ИПП (англ. number needed to treat, NNT). Он показывает, сколько человек нужно пролечить, чтобы вылечить одного, и рассчитывается как единица, деленная на снижение абсолютного риска – разницу между риском для нелеченых и леченых пациентов.
Баланс этих двух показателей помогает взвесить положительные и отрицательные последствия применения лекарства и принять решение о целесообразности лечения. В конце 2018 года разделы научных новостей большинства СМИ отметились новостями о том, что удаление аппендикса защищает от болезни Паркинсона. Авторы некоторых публикаций даже призывали к профилактической аппендэктомии. Повод для шума дало наблюдательное исследование, обнаружившее у тех, чей аппендикс был удален, снижение риска развития болезни Паркинсона на 19%.
Но не спешите записываться на плановую операцию. Болезнь Паркинсона была диагностирована у 1,17 из каждой тысячи перенесших аппендэктомию и у 1,4 на каждую тысячу тех, кому операцию не делали. Индекс потенциальной пользы равен 4348. Именно столько людей нужно прооперировать, чтобы предотвратить болезнь Паркинсона у одного из них.
При этом полостные операции не безвредны. Смертность при аппендэктомии равна примерно 1:500, что дает нам 8,7 погибших на один предотвращенный случай болезни Паркинсона. Даже если делать поправку на то, что при плановом удалении аппендикса смертность будет в несколько раз ниже, чем в ходе экстренной операции, общий вывод не меняется. Баланс пользы и вреда профилактики болезни Паркинсона с помощью аппендэктомии говорит не в пользу этого метода.
Вернемся к диете из одних оливок и к вопросу, стоит ли на основании каждой публикации о статистической связи сразу радикально менять свою жизнь. Помимо индекса потенциального вреда нужно помнить о критериях Хилла и о том, что результаты похожих исследований могут противоречить друг другу. Поэтому надежнее полагаться не на отдельные исследования, а на рекомендации, выпущенные крупными специализированными организациями, такими как Международное агентство изучения рака (МАИР), функционирующего в составе Всемирной организации здравоохранения (ВОЗ).
Такие документы обычно готовят большие группы экспертов, которые учитывают все существующие на этот момент доказательства. Часто они не подтверждают небольшие и разнонаправленные эффекты, обнаруженные отдельными исследованиями. Суммируя существующие доказательства, МАИР присваивает потенциальным канцерогенам одну из пяти групп.
группа 1 – канцерогенно для людей
группа 2А – возможно, канцерогенно
группа 2В – предположительно канцерогенно
группа 3 – информация для оценки канцерогенности недостаточна
группа 4 – вероятно, не канцерогенно для людей
В последней группе пока только одно вещество, в первой – около 900, в нее были занесены такие известные угрозы здоровью, как курение, пассивное курение, плутоний, хронический гепатит B и ультрафиолетовое излучение. Много шума наделало вышедшее в 2015 году заявление МАИР о том, что обработанное мясо (сосиски, ветчина и бекон) повышает риск колоректального рака и занесено в группу 1.
Важно помнить, что принадлежность к той или иной группе говорит только о степени доказанности эффекта, но не о его силе. Последняя может варьироваться внутри группы от огромной до минимальной. В случае обработанного мяса относительный риск равен 1,18, это несопоставимо меньше, чем 30–60 для курения, и чуть ниже, чем 1,3 для пассивного курения. Если риск возникновения колоректального рака в течение жизни у тех, кто не употребляет обработанное мясо, равен примерно 5%, то у тех, кто употребляет его в значительных количествах, он повышается почти до 6%. Получается, что употребление обработанного мяса вызывает рак примерно у одного из ста употребляющих его в пищу, то есть индекс потенциального вреда равен 100. Риск для отдельно взятого человека не очень велик, хотя в масштабах человечества последствия значительны.
Конечно, главное ограничение наблюдательных исследований в том, что за статистической связью далеко не всегда скрывается причинно-следственная. В 2014 году был сделан обзор публикаций находок одного из крупнейших наблюдательных исследований в истории – Исследования здоровья медицинских сестер. Были опубликованы данные о более чем двух тысячах статистических связей между различными переменными и болезнями, при этом 58% из них были статистически значимы. Обнаруженный эффект был перепроверен в РКИ только в 19 случаях. Ожидаемо в большинстве случаев эксперимент не подтвердил предварительные находки, что не помешало многим из них появиться в самых влиятельных научных журналах и стать поводом для сенсаций в СМИ.
Впрочем, справедливо ли считать, что, в отличие от наблюдательных исследований, любая находка рандомизированного клинического эксперимента – непреложная истина? Да, двойные слепые рандомизированные эксперименты по праву считаются золотым стандартом доказательности в медицине. Но было бы наивно полагать, что они всегда дают верные и объективные ответы. Реальность клинических испытаний, в которой сталкиваются интересы производителей, ученых, регулирующих органов и пациентов, намного сложнее.