Глава 1     Глава 2     Глава 3   

Центральная тенденция


Измерение центральной тенденции заключается в выборе числа, которое наилучшим способом описывает все значения признака набора данных. Такое число имеет как свои достоинства, так и недостатки. Мы рассмотрим две характеристики этого измерения, а именно: среднее значение и медиану, эти понятия будут использоваться нами в последующих лекциях.

Главная цель среднего - представление набора данных для последующего анализа, сопоставления и сравнения.

Значение среднего легко вычисляется и может быть использовано для последующего анализа. Оно может быть вычислено для данных, измеряемых по интервальной шкале, и для некоторых данных, измеряемых по порядковой шкале. Среднее значение рассчитывается как среднее арифметическое набора данных: сумма всех значений выборки, деленная на объем выборки. "Сжимая" данные таким образом, мы теряем много информации.

Среднее значение очень информативно и позволяет делать вывод относительно всего исследуемого набора данных. При помощи среднего мы получаем возможность сравнивать несколько наборов данных или их частей.

При анализе данных средним не следует злоупотреблять, необходимо учитывать его свойства и ограничения. Известны характеристики "средняя температура по больнице" или "средняя высота дома", показывающие некорректность использования этой меры центральной тенденции для некоторых случаев.

Свойства среднего

• При расчете среднего не допускаются пропущенные значения данных.

• Среднее может вычисляться только для числовых данных и для дихотомических шкал.

• Для одного набора данных может быть рассчитано одно и только одно значение среднего.

Информативность среднего значения переменной высока, если известен ее доверительный интервал. Доверительным интервалом для среднего значения является интервал значений вокруг оценки, где с данным уровнем доверия находится "истинное" среднее популяции. Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин.

Ширина доверительного интервала зависит от размера выборки и от разброса данных.

С увеличением размера выборки точность оценки среднего возрастает. С увеличением разброса значений выборки надежность среднего падает. Если размер выборки достаточно большой, качество среднего увеличивается независимо от выполнения предположения нормальности выборки.

Медиана - точная середина выборки, которая делит ее на две равные части по числу наблюдений.

Обязательным условием нахождения медианы является упорядоченность выборки.

Таким образом, для нечетного количества наблюдений медианой выступает наблюдение с номером (n+1)/2, где n - количество наблюдений в выборке.

Для четного числа наблюдений медианой является среднее значение наблюдений n/2 и (n+2)/2.

Некоторые свойства медианы

•              Для одного набора данных может быть рассчитано одно и только одно значение медианы.

•              Медиана может быть рассчитана для неполного набора данных, для этого необходимо знать номера наблюдений по порядку, общее количество наблюдений и несколько значений в середине набора данных.