Приложение к главе 10
Почему стандартная ошибка оказывается больше, когда p и (1 − p) близки к 50 %
Здесь излагаются интуитивные соображения, объясняющие, почему стандартная ошибка оказывается самой большой, когда доля ответивших определенным образом (p) близка к 50 % (что с математической точки зрения означает, что величина (1 − p) также будет близка к 50 %). Давайте представим: вы проводите два опроса в штате Северная Дакота. Первый опрос призван оценить соотношение сторонников Республиканской и Демократической партии в этом штате. Допустим, истинное их соотношение примерно 50 на 50, однако в ходе проведения вашего опроса выяснилось, что 60 % населения штата поддерживают республиканцев, а 40 % – демократов. Ваши результаты отличаются от реального положения вещей на 10 %, что является достаточно большой погрешностью. Однако столь существенная ошибка у вас получилась несмотря на то, что вы не допустили невообразимо большой ошибки при сборе данных. Вы завысили долю сторонников Республиканской партии по сравнению с их настоящей долей в населении штата на 20 % [(60–50)/50 = 0,2], при этом занизив долю сторонников Демократической партии в штате также на 20 % [(40–50)/50 = 0,2]. Это могло случиться даже при использовании весьма эффективной методологии проведения опроса.
Ваш второй опрос призван определить долю коренных жителей Америки в населении штата Северная Дакота. Допустим, их истинная доля равняется 10 %, а доля некоренных жителей – 90 %. Теперь рассмотрим, насколько неправильными должны оказаться собранные вами данные, чтобы погрешность вашего опроса составила целых 10 %. Это могло бы произойти в двух случаях. Первый: ваш опрос мог показать, что доля коренных жителей Америки в населении Северной Дакоты составляет 0 %, то есть все население штата – некоренные американцы. Второй: согласно опросу, доля коренных жителей Америки в населении Северной Дакоты составляет 20 %, а доля некоренных жителей – 80 %. Итак, в первом случае вы упустили из виду всех коренных жителей Америки, а во втором в два раза завысили их долю в населении штата по сравнению с истинным положением дел. Это, конечно, серьезные ошибки проведения выборочного исследования. В обоих случаях ошибка вашей оценки составила 100 %: либо [(0 − 10)/10 = –1], либо [(20 − 10)/10 = 1]. А если бы вы упустили из виду лишь 20 % коренных жителей Америки – именно такую ошибку вы допустили в опросе, касающемся соотношения сторонников Республиканской и Демократической партии в Северной Дакоте, – то в результате вашего опроса оказалось бы, что доля коренных жителей Америки в Северной Дакоте составляет 8 %, а доля некоренных жителей – 92 %, то есть в этом случае вы ошиблись бы всего на 2 % по сравнению с истинным соотношением коренных и некоренных жителей Америки в населении Северной Дакоты.
Когда p и (1 − p) близки к 50 %, относительно небольшие ошибки выборочного исследования трансформируются в крупные абсолютные ошибки результатов опроса.
И наоборот, когда p или (1 − p) близки к нулю, даже относительно крупные ошибки выборочного исследования трансформируются в небольшие абсолютные ошибки результатов опроса.
Одна и та же 20-процентная ошибка выборочного исследования исказила результат опроса, касающегося соотношения сторонников Республиканской и Демократической партии, на 10 %, исказив лишь на 2 % результат опроса о соотношении коренных и некоренных жителей Америки в населении Северной Дакоты. Поскольку стандартная ошибка любого опроса измеряется в абсолютных значениях (например, ±5 %), из нашей формулы следует, что эта ошибка приблизится к своему максимальному значению, когда p и (1 − p) окажутся близки к 50 %.