Приложение С
Статистические методы, использованные в нашем исследовании
Это приложение представляет собой краткое изложение статистических методов, которые мы использовали в нашем исследовании. Оно служит в качестве справочной информации, а не подробного статистического текста. Мы включили указатели на соответствующие академические ссылки там, где это уместно. Приложение примерно следует нашему пути через проектирование и анализ исследования.
Подготовка опроса
Как только мы определились с конструкциями и гипотезами, которые мы хотим проверять каждый год, мы начинаем процесс исследования с разработки инструмента опроса.
По возможности используются ранее проверенные элементы. Например, организационная эффективность (Widener, 2007) и некоммерческая эффективность (Каваллуццо и Иттнер, 2004). Когда мы создаем свои собственные измерения, инструмент опроса разрабатывается в соответствии с общепринятыми процедурами, адаптированными из работы Дона Дилмана (Dillman, 1978).
Сбор данных
Вооружившись нашим исследовательским проектом и вопросами опроса, мы приступили к сбору данных.
Мы собирали данные, используя выборку методом снежного кома, то есть технику неслучайной выборки. Более подробно о том, почему она является подходящей техникой, как мы собрали нашу выборку и какие стратегии мы использовали для противодействия ограничениям этого метода, мы рассказываем в Главе 15.
Тесты на смещения
Как только мы получаем наши данные, мы начинаем тестирование на смещение.
- Тесты по критерию хи-квадрат. Тест на различия. Он используется для проверки наличия существенных различий в переменных, которые могут принимать только безусловные значения (например, пол).
- Тесты по t-критерию. Тест на различия. Он используется для проверки наличия существенных различий в переменных, которые могут принимать значения масштаба (например, значения по шкале Ликерта). Мы использовали его для проверки различий между ранними и поздними респондентами.
- Смещение общего метода (CMB — common method bias) или дисперсия общего метода (CMV — common method variance). Включает в себя проведение двух тестов:
- однофакторный тест Хармана (Подсакофф и Далтон, 1987). Он проверяет, не оказывает ли один-единственный фактор значительную нагрузку на все элементы;
- тест на маркерную переменную (Линделл и Уитни, 2001). Он проверяет, остаются ли все первоначально значимые корреляции значимыми после корректировки на вторую самую низкую положительную корреляцию среди конструкций.
Мы не видели смещения между ранними и поздними респондентами. Смещение общего метода, похоже, не является проблемой для нашей выборки.
Тестирование на взаимосвязь
В соответствии с лучшими практиками и принятым исследованием мы провели наш анализ в два этапа (Гефен и Штрауб, 2005). На первом этапе мы проводим анализ измерений, чтобы проверить и сформировать наши скрытые конструкции (см. ). Это позволяет нам определить, какие конструкции могут быть включены во второй этап нашего исследования.
Тесты модели измерения
- Анализ главных компонентов (PCA — principal components analysis). Тест для подтверждения конвергентной валидности. Этот метод используется для объяснения дисперсионно-ковариационной структуры набора переменных.
- Анализ главных компонентов проводился с переменной ротацией, с отдельным анализом для независимых и зависимых переменных (Штрауб и соавторы, 2004).
- Существует два типа PCA: подтверждающий факторный анализ (CFA — confirmatory factor analysis) и исследовательский факторный анализ (EFA — exploratory factor analysis). Почти во всех случаях мы выполняли EFA. Мы выбрали этот метод, потому что он является более строгим тестом для выявления базовой структуры переменных без наложения или предложения структуры априори. (Одно заметное исключение было, когда мы использовали CFA для подтверждения обоснованности трансформационного лидерства, поскольку элементы в этом случае общеприняты в литературе.) Элементы должны нагружать свои соответствующие конструкции выше, чем 0,60, и не должны иметь перекрестную нагрузку.
- Усредненная дисперсия (AVE — average variance extracted). Тест, помогающий подтвердить как конвергентную, так и дискриминационную валидность. AVE — это мера величины дисперсии, которая захватывается конструкцией по отношению к величине дисперсии из-за ошибки измерения.
- AVE должна быть больше 0,50, чтобы показать конвергентную валидность.
- Квадратный корень AVE должен быть больше, чем перекрестная корреляция конструкций (когда вы помещаете квадратный корень AVE на диагональ таблицы корреляции), чтобы показать дивергентную валидность.
- Корреляция. Этот тест помогает подтвердить дивергентную валидность, когда корреляции между конструкциями ниже 0,85 (Браун, 2006). Были использованы корреляции Пирсона (подробнее см. ниже).
- Надежность.
- Альфа Кронбаха — показатель внутренней согласованности. Пороговое значение для составной надежности (CR — composite reliability) равно 0,70 (Нунналли, 1978); все конструкции соответствуют либо этому значению, либо CR (перечислены ниже). Обратите внимание, что альфа Кронбаха, как известно, смещается при небольших масштабах (то есть в конструкциях с небольшим количеством элементов), поэтому для подтверждения надежности были использованы альфа Кронбаха и композитная надежность.
- Составная надежность (CR) — показатель внутренней согласованности и конвергентной валидности. Пороговое значение для CR составляет 0,70 (Чин и соавторы, 2003); все конструкции соответствуют либо этому значению, либо альфе Кронбаха (см. выше).
Все вышеуказанные тесты должны быть проведены для того, чтобы конструкция считалась пригодной для использования в дальнейшем анализе. Мы говорим, что конструкция «проявляет хорошие психометрические свойства», и если это так, мы продолжаем. Все конструкции в нашем исследовании прошли эти тесты.
Тесты на взаимосвязь (корреляцию и прогнозирование) и классификацию
На втором этапе мы принимаем показатели, которые прошли первый этап подтверждения измерений, и проверяем наши гипотезы. Это статистические тесты, которые используются на данном этапе исследования. Как было описано в Главе 12, в этом проекте исследования мы проводим тесты на дедуктивные предсказания, что означает, что все проверенные гипотезы поддерживаются дополнительными теориями и литературой. Если не существует никаких поддерживающих теорий, позволяющих предположить наличие предиктивных отношений, мы сообщаем только о корреляциях.
- Корреляция. Означает взаимное отношение или связь между двумя или более конструкциями. В этом исследовании мы используем корреляцию Пирсона, чаще всего используемую сегодня в бизнес-контекстах. Корреляция Пирсона измеряет силу линейной связи между двумя переменными, называемую r Пирсона. Она часто называется просто корреляцией и принимает значение между –1 и 1. Если две переменные имеют идеальную линейную корреляцию, то есть изменяются полностью согласованно, r = 1. Если они изменяются в совершенно противоположных направлениях, r = –1. Если они вообще не коррелируют, r = 0.
- Регрессия. Используется для проверки предиктивных отношений. Существует несколько видов регрессии. В этом исследовании мы использовали два типа линейной регрессии, как описано ниже.
- Регрессия частичных наименьших квадратов (PLS — partial least squares). Мы использовали ее для тестирования предиктивных отношений в 2015–2017 годах. PLS — это метод регрессии на основе корреляции, который был выбран для нашего анализа по нескольким причинам (Чин, 2010):
- этот метод используется для прогнозирования переменной результата. Поскольку мы хотели, чтобы наши результаты были полезны для практиков в отрасли, это было важно для нас;
- PLS не требует предположений о многомерной нормальности. Другими словами, этот метод не требует, чтобы наши данные были нормально распределены;
- PLS — отличный выбор для экспериментальных исследований, а это именно наша исследовательская программа!
- Линейная регрессия. Она использовалась для проверки предиктивных отношений в нашем исследовании 2014 года.
Тесты на классификацию
Эти тесты могут быть сделаны в любое время, потому что они не полагаются на конструкции.
- Кластерный анализ. Он был использован для разработки основанной на данных классификации эффективности доставки программного обеспечения, что дало нам респондентов с высокими, средними и низкими показателями. В кластерном анализе каждая оценка помещается в отдельное измерение, и алгоритм кластеризации пытается минимизировать дистанцию между всеми членами кластера и максимизировать дистанцию между кластерами. Кластерный анализ был проведен с использованием пяти методов: метода Варда (1963), метода связи между группами, метода связи внутри групп, центроидного метода и метода медианы. Результаты для кластерных решений сравнивались с позиции: (а) изменения коэффициентов слияния; b) количества индивидов в каждом кластере (решения, включающие кластеры с небольшим количеством участников, были исключены); и с) однофакторной F-статистики (Ульрих и Маккелви, 1990). Исходя из этих критериев, решение с использованием метода Варда подходило лучше всего, и мы остановили выбор на нем. Мы использовали метод иерархического кластерного анализа, потому что:
- он обладает сильной разъяснительной силой (позволяя нам понять отношения «родители — дети» в кластерах);
- у нас не было ни отраслевых, ни теоретических оснований иметь заранее определенное количество кластеров. То есть мы хотели, чтобы данные определяли количество кластеров в нашем распоряжении;
- наш набор данных был не слишком большим. (Иерархическая кластеризация не подходит для очень больших наборов данных.)
- Дисперсионный анализ (ANOVA). Для интерпретации кластеров постфактум были проведены сравнения средств оценки результатов эффективности доставки программного обеспечения (частота развертывания, время выполнения, MTTR и частота сбоев изменений) с использованием теста Тьюки. Тест Тьюки был выбран, потому что он не требует нормальности; тест множественного диапазона Дункана также был запущен для проверки существенных различий, и во всех случаях результаты были одинаковыми (Хаер и соавторы, 2006). Попарные сравнения были проведены между кластерами с использованием каждой переменной эффективности доставки программного обеспечения, и значительные различия разделили кластеры на группы, где среднее значение этой переменной существенно не отличалось среди кластеров внутри группы, но отличалось на статистически значимом уровне (p < 0,10 в нашем исследовании) среди кластеров в разных группах. Во все годы, кроме 2016 (см. в Главе 2), лучшие демонстрировали лучшие показатели по всем переменным, худшие демонстрировали худшие показатели по всем переменным, а средние демонстрировали средние показатели по всем переменным — все на статистически значимых уровнях.