Приложение к главе 10

Книга: Голая статистика

Назад: ГЛАВА 10. Опрос общественного мнения. Откуда нам известно, что 64% американцев поддерживают смертную казнь (ошибка выборки ±3%)

Дальше: ГЛАВА 11. Регрессионный анализ. Волшебный эликсир

Почему стандартная ошибка оказывается больше, когда p и (1 – p) близки к 50%

Здесь излагаются интуитивные соображения, объясняющие, почему стандартная ошибка оказывается самой большой, когда доля ответивших определенным образом (p) близка к 50% (что с математической точки зрения означает, что величина (1 – p) также будет близка к 50%). Давайте представим: вы проводите два опроса в штате Северная Дакота. Первый опрос призван оценить соотношение сторонников Республиканской и Демократической партии в этом штате. Допустим, истинное их соотношение примерно 50 на 50, однако в ходе проведения вашего опроса выяснилось, что 60% населения штата поддерживают республиканцев, а 40% — демократов. Ваши результаты отличаются от реального положения вещей на 10%, что является достаточно большой погрешностью. Однако столь существенная ошибка у вас получилась несмотря на то, что вы не допустили невообразимо большой ошибки при сборе данных. Вы завысили долю сторонников Республиканской партии по сравнению с их настоящей долей в населении штата на 20% [(60 – 50)/50 = 0,2], при этом занизив долю сторонников Демократической партии в штате также на 20% [(40 – 50)/50 = 0,2]. Это могло случиться даже при использовании весьма эффективной методологии проведения опроса.

Ваш второй опрос призван определить долю коренных жителей Америки в населении штата Северная Дакота. Допустим, их истинная доля равняется 10%, а доля некоренных жителей — 90%. Теперь рассмотрим, насколько неправильными должны оказаться собранные вами данные, чтобы погрешность вашего опроса составила целых 10%. Это могло бы произойти в двух случаях. Первый: ваш опрос мог показать, что доля коренных жителей Америки в населении Северной Дакоты составляет 0%, то есть все население штата — некоренные американцы. Второй: согласно опросу, доля коренных жителей Америки в населении Северной Дакоты составляет 20%, а доля некоренных жителей — 80%. Итак, в первом случае вы упустили из виду всех коренных жителей Америки, а во втором в два раза завысили их долю в населении штата по сравнению с истинным положением дел. Это, конечно, серьезные ошибки проведения выборочного исследования. В обоих случаях ошибка вашей оценки составила 100%: либо [(0 – 10)/10 = –1], либо [(20 – 10)/10 = 1]. А если бы вы упустили из виду лишь 20% коренных жителей Америки — именно такую ошибку вы допустили в опросе, касающемся соотношения сторонников Республиканской и Демократической партии в Северной Дакоте, — то в результате вашего опроса оказалось бы, что доля коренных жителей Америки в Северной Дакоте составляет 8%, а доля некоренных жителей — 92%, то есть в этом случае вы ошиблись бы всего на 2% по сравнению с истинным соотношением коренных и некоренных жителей Америки в населении Северной Дакоты.

Когда p и (1 – p) близки к 50%, относительно небольшие ошибки выборочного исследования трансформируются в крупные абсолютные ошибки результатов опроса.

И наоборот, когда p или (1 – p) близки к нулю, даже относительно крупные ошибки выборочного исследования трансформируются в небольшие абсолютные ошибки результатов опроса.

Одна и та же 20-процентная ошибка выборочного исследования исказила результат опроса, касающегося соотношения сторонников Республиканской и Демократической партии, на 10%, исказив лишь на 2% результат опроса о соотношении коренных и некоренных жителей Америки в населении Северной Дакоты. Поскольку стандартная ошибка любого опроса измеряется в абсолютных значениях (например, ±5%), из нашей формулы следует, что эта ошибка приблизится к своему максимальному значению, когда p и (1 – p) окажутся близки к 50%.

Дальше: ГЛАВА 11. Регрессионный анализ. Волшебный эликсир