Статистические характеристики. Основные статистические характеристики рассеивания Какое из чисел являющееся статистической характеристикой ряда

Ключевые слова конспекта: статистические характеристики, статистические исследования, выборка, варианта, объем выборки, среднее арифметическое, вариационный ряд, размах ряда, мода выборки, медиана ряда.

Статистические исследования

Для изучения, обработки и анализа количественных данных различных массовых социально-экономических процессов и явлений проводят статистические (от латинского слова status - «состояние, положение вещей») исследования . Уже в древних государствах вели учёт населения, способного платить налоги. С развитием общества потребовались научные методы обработки и анализа самых разнообразных сведений. Так, в XIX в. появилась биологическая статистика, названная биометрикой и изучающая численные характеристики отдельных биологических особей и их популяций. Можно назвать ещё более десятка различных статистик: экономическая, финансовая, налоговая, демографическая, медицинская, метеорологическая и т. д.

Каждое статистическое исследование состоит из сбора и обработки информации . На основе полученных данных составляются различные прогнозы, оценивается их достоверность и т.д. Важной задачей, без которой статистические данные теряют всякий смысл, является обработка полученных данных.

Рассмотрим пример . Учащимся двух седьмых классов был предложен тест по математике, состоящий из 10 заданий. При проверке работ отмечали количество заданий, верно выполненных учащимися. Получили два ряда чисел:

7 «А» класс: 8; 7; 2; 5; 10; 9; 8; 7; 7; 10; 9; 6; 5; 8; 8; 10; 9; 9; 10; 7; 9; 10; 7; 9; 6;
7 «Б» класс: 8; 7; 8; 6; 9; 9; 7; 8; 7; 9; 9; 6; 5; 8; 7; 10; 9; 10; 10; 7; 8; 9; 7; 9; 9.

Ряд данных, полученных в результате статистического исследования, называют выборкой , а каждое число этого ряда - вариантой выборки. Количество чисел в ряду называют объёмом выборки . В нашем примере объёмом выборки является количество учащихся каждого класса, участвовавших в тестировании. В каждом случае объём выборки равен 25.

Имея приведённые выше два ряда данных, трудно сравнить результаты выполнения теста учащимися двух классов. А если рассматривать результаты, которые показали все семиклассники города или целого региона, то информация будет столь громоздкой, что окажется бесполезной. Потому для статистической обработки данных рассматривают различные статистические характеристики .

Среднее арифметическое. Вариационный ряд

Одной из характеристик, широко применяемых в статистических исследованиях, является среднее арифметическое .

Определение . Средним арифметическим ряда данных называется частное суммы всех вариант ряда и количества вариант.

Поскольку количество вариант - это объём выборки, то среднее арифметическое выборки есть частное суммы всех вариант и объёма выборки.

Рассмотрим пример . Найдём средний балл, который получили учащиеся 7 «А» класса при выполнении теста:

Такой подсчёт среднего арифметического выборки не очень удобен. Можно поступать иначе. Перепишем выборку для 7 «А» класса, расположив её варианты так, чтобы каждая следующая была не меньше предыдущей. Получим:
2; 5; 5; 6; 6; 7; 7; 7; 7; 7; 8; 8; 8; 8; 9; 9; 9; 9; 9; 9; 10; 10; 10; 10; 10.

Такую запись выборки называют упорядоченным рядом данных (или вариационным рядом ). Теперь легко видеть, что 2 балла получил один ученик, 5 баллов - два ученика, 6 баллов - два ученика, 7 баллов - пять учеников и т.д. Количество появлений одной и той же варианты в выборке называют частотой этой варианты. Так, например, частота варианты 7 равна 5, частота варианты 10 равна 5. Составим таблицу частот вариант для учащихся 7 «А» класса. В первой строке запишем все возможные количества баллов, которые могли получить учащиеся при выполнении теста, т.е. числа от 0 до 10. Во второй строке запишем соответствующие частоты, т.е. число учащихся, получивших указанное количество баллов.

Проверим, не ошиблись ли мы при подсчёте частот: сумма частот должна быть равна объёму выборки. Действительно, 0 + 0 + 1+ 0 + 0 + 2 + 2 + 5 + 4 + 6 + 5 = 25 (естественно, нули можно не писать). Теперь можно вычислить среднее арифметическое выборки проще:

Заметим, что среднее арифметическое упорядоченного ряда данных и среднее арифметическое выборки - одно и то же число. Составим таблицу частот выборки для 7 «Б» класса.

Заметим, что обычно в таблицу частот не включают варианты, частоты которых равны нулю. В этом случае таблица частот для 7 «Б» класса будет такой:

Найдём объём выборки: 1 + 2 + 6 + 5 + 8 + 3 = 25. Теперь найдём среднее арифметическое:

Зная средние баллы учащихся 7 «А» и 7 «Б» классов, можно сделать вывод, что учащиеся 7 «Б» в целом выполнили тест лучше, поскольку 8,04 > 7,8 .

Составленные таблицы частот позволяют сделать и другие полезные выводы по итогам проведённого тестирования. Например, для первой выборки (результаты учащихся 7 «А» класса) наименьший полученный балл равен 2, наибольший - 10. Результаты всех учащихся класса располагаются между этими числами. Для второй выборки наименьшая варианта равна 5, наибольшая - 10. Это может означать, что 7 «Б» класс по своей математической подготовке является более однородным, чем 7 «А».

Размах ряда. Мода выборки

Ещё одним показателем, который используется при анализе статистических данных, является размах ряда .

Определение. Разность наибольшей и наименьшей вариант выборки называют размахом ряда .

В рассмотренном ранее примере размах первой выборки (или упорядоченного ряда данных) равен 10 — 2 = 8, а второй 10-5 = 5. Размах выборки находят в том случае, когда существенной для исследования является величина разброса данных в ряду. К примеру, в метеорологии важна не только среднесуточная температура, но и численная характеристика колебания температуры воздуха в течение суток, т. е. размах выборки.

Заметим, что на практике при анализе данных, полученных в результате исследования, бывает удобно использовать ещё одну статистическую характеристику - так называемую моду выборки .

Определение. Варианта выборки, имеющая наибольшую частоту, называется модой выборки .

В рассмотренном примере с изучением результатов тестирования, проведённого в двух седьмых классах, модой и первого, и второго ряда является число 9, которое и в первой, и во второй выборке встречается чаще других.

Моду ряда находят тогда, когда нужно выявить типичный для данной выборки показатель. Если, например, изучаются данные о размерах мужских рубашек, проданных в магазине в определённый день, то удобно бывает воспользоваться таким показателем, как мода, который характеризует размер, пользующийся наибольшим спросом.

Если в выборке два числа встречаются с одинаковой частотой, превосходящей частоты, с которыми встречаются другие числа, то обе эти варианты являются модой для данного ряда. Так, в ряду 2; 3; 3; 3; 5; 5; 6; 6; 6; 7; 8; 8 две моды - это числа 3 и 6. Может случиться, что в выборке будет более двух мод или не будет моды совсем. Например, ряд 2; 2; 3; 3; 4; 4; 5; 5 не имеет моды.

Медиана ряда

Ещё одной характеристикой, используемой в статистике, является медиана ряда .

Рассмотрим пример . Сотрудники лаборатории приобрели акции одного предприятия. Количество акций, приобретённых сотрудниками, оказалось таким: 2; 3; 5; 6; 8; 9; 51. Нужно оценить среднее количество приобретённых акций.

Данный ряд не имеет моды. Найдём среднее арифметическое ряда:

Найденное число не отражает реальной ситуации с распределением акций между сотрудниками лаборатории, поскольку оно больше шести из семи вариант ряда. Для оценки средней величины поступим иначе. Составим из полученных данных упорядоченный ряд и найдём варианту, записанную в середине ряда.
2; 3; 5; 6 ; 8; 9; 51.
Эту варианту называют медианой . Она равна 6. Естественно, найденное значение лишь приближённо характеризует средний показатель ряда, однако эта характеристика ближе к действительности.

Если ряд имеет чётное число вариант, то в качестве медианы рассматривают среднее арифметическое двух средних элементов. Например, медианой ряда 3; 3; 4; 5; 5: 6 : 6; 7; 7; 40 является среднее арифметическое чисел 5 и 6, т.е. (5 + 6)/2 = 5,5.

Определение . Если в упорядоченном ряду данных нечётное число вариант, то средняя по счёту варианта называется медианой ряда . Если в упорядоченном ряду чётное число вариант, то среднее арифметическое двух средних по счёту вариант называется медианой ряда .

Медианой произвольной выборки является медиана соответствующего упорядоченного ряда. Заметим, что если упорядоченный ряд данных содержит 2n — 1 вариант (n - натуральное число), то медианой является n -я варианта, а если упорядоченный ряд данных содержит 2n чисел, то медианой является среднее арифметическое n -го и n + 1 -го чисел.

Рассмотрим пример . Во время соревнований по стрельбе спортсмен набрал следующее количество очков: 9; 9; 8; 10; 8; 7; 9; 10; 8; 7. Найдём: а) объём выборки; б) среднее арифметическое выборки; в) размах; г) моду ряда; д) медиану выборки.

Для решения задачи запишем упорядоченный ряд данных:
7; 7; 8; 8; 8; 9; 9; 9; 10; 10.

А) Спортсмен сделал 10 выстрелов, значит, объём выборки равен 10.

Б) Найдём среднее арифметическое выборки

В) Размах ряда равен 10 — 7 = 3.

Г) У данного ряда две моды: 8 и 9.

Д) Найдём медиану выборки. Данный ряд содержит чётное число вариант. Найдём среднее арифметическое двух чисел, записанных в середине ряда: (8 + 9)/2 = 8,5. Медианой выборки является число 8,5.

Это конспект по математике на тему «Статистические характеристики» . Выберите дальнейшие действия:

  • Перейти к следующему конспекту:

Статистика - одна из древнейших отраслей прикладной математики, которая широко использует теоретическую базу многих арифметических определений для осуществления практической деятельности человека. Ещё в древних государствах возникла необходимость строгого учета дохода граждан по группам, для проведения эффективного процесса налогообложения. Статистические исследования имеют громадное значение для экономического развития общества, и не только. Поэтому, в данном видеоуроке мы рассмотрим основные определения статистических характеристик.

Предположим, нам необходимо изучить статистику выполнения тестов учениками седьмого класса. Для начала нам необходимо создать массив информации, с которым можно работать. Информацией, в данном случае, будут являться цифры, определяющие количество выполненных тестов каждым из учеников. Рассмотрим два класса, содержащие по 15 школьников каждый. Общее задание включало 10 упражнений. Результаты получились следующими:

7А: 4, 10, 6, 4, 7, 8, 2, 10, 8, 5, 7, 9, 10, 6, 3;

7Б: 7, 5, 9, 7, 8, 10, 7, 1, 7, 6, 5, 9, 8, 10, 7.

Мы получили, в математической интерпретации, два множества чисел, состоящие из 15 элементов каждое. Этот информационный массив, сам по себе, мало чем может помочь в оценивании эффективности выполнения заданий. Поэтому его нужно статистически преобразовать. Для этого введем основные понятия статистики. Ряд чисел, полученных в результате исследования, называется выборкой. Каждое число (количество выполненных упражнений) - это варианта выборки. А количество всех чисел (в данном случае, это 30 - сумма всех учеников в обоих классах) является объемом выборки.

Одной из главных статистических характеристик является среднее арифметическое. Это значение определяется как частное, полученное в результате деления суммы значений вариант выборки на её объем. В нашем случае необходимо сложить все полученные значения чисел и поделить их на 15 (если мы вычисляем среднее арифметическое для какого-либо одного класса), либо же на 30 (если мы вычисляем общее среднее арифметическое). В представляемом примере, сумма всех количеств выполненных заданий для класса 7А составит 99. Поделив на 15, получаем 6,6 - это среднее арифметическое выполненных заданий для данной группы учеников.

Работать с хаотичным набором чисел не очень удобно, поэтому очень часто информационный массив приводят к упорядоченному набору данных. Создадим вариационный ряд для 7Б класса, использовав метод постепенного возрастания, располагая числа от меньшего к большему:

1, 5, 5, 6, 7, 7, 7, 7, 7, 8, 8, 9, 9, 10, 10.

Количество появлений какого-либо одного значения в выборке данных называется частотой варианты выборки. Например, частота варианты «7» в вышеуказанном вариационном ряду легко определяется, и равна она пяти. Для удобства отображения упорядоченный ряд преобразуется в таблицу, отображающую зависимость между стандартным рядом значений вариант, и частотой встречаемости (количеством учеников, выполнивших одинаковое количество задач).

В 7А классе наименьшей вариантой выборки является значение «2», а наибольшей - «10». Интервал между 2 и 10 называется размахом вариационного ряда. Для 7Б класса размах ряда составляет от 1 до 10. Наибольшая, по частоте встречаемости, варианта называется модой выборки - для 7А это число 7, встречающееся 5 раз.

ЛЕКЦИЯ 2

Базовые понятия математической статистики. Выборочный метод. Числовые характеристики статистических рядов Точечные статистические оценки и требования к ним. Метод доверительных интервалов. Проверка статистических гипотез.

Глава 3.
БАЗОВЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Выборочный метод

В этой главе приводится краткий обзор основных понятий и результатов математической статистики, которые используются в курсе эконометрики.

Одной из центральных задач математической статистики является выявление закономерностей в статистических данных, на базе которых можно строить соответствующие модели и принимать обдуманные решения. Первая задача математической статистики заключается в разработке методов сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных опытов. Вторая задача математической статистики заключается в разработке методов обработки и анализа статистических данных в зависимости от целей исследования. Элементами такого анализа, в частности, являются: оценка параметров известной функции распределения, проверка статистических гипотез о виде распределения и т.д.

Между математической статистикой и теорией вероятностей имеется тесная взаимосвязь. Теория вероятностей широко применяется при статистическом изучении массовых явлений, которые могут и не относится к категории случайных. Это осуществляется через теорию выборочного метода. Здесь вероятностных закономерностям подчиняются не сами изучаемые явления, а методы их исследования. Кроме того, теория вероятностей играет важную роль при статистическом исследовании вероятностных явлений. В этих случаях сами изучаемые явления подчиняются вполне определенным вероятностным закономерностям.

Основной задачей математической статистики является разработка методов получения научно обоснованных выводов о массовых явлениях и процессах из данных наблюдений или экспериментов. Например, нужно провести контроль качества изготовленной партии деталей или исследовать качество технологического процесса. Можно, конечно, провести сплошное обследование, т.е. обследовать каждую деталь партии. Однако если деталей слишком много, то провести сплошное обследование физически невозможно, а если обследование объекта связано с его уничтожением или требует больших затрат, то проводить сплошное обследование не имеет смысла. Поэтому приходится из всей совокупности объектов для обследования отбирать только часть, т.е. проводить выборочное обследование. Таким образом, на практике часто приходится давать оценку параметров большой совокупности по небольшому числу выбранных случайным образом элементов.



Вся подлежащая изучению совокупность объектов называется генеральной совокупностью . Та часть объектов, которая была отобрана из генеральной совокупности, называется выборочной совокупностью или более кратко – выборкой . Договоримся, обозначать объем выборки буквой n , а объем генеральной совокупности буквой N .

Выборка, в общем случае, образуется для оценки каких-либо характеристик генеральной совокупности. Однако не всякая выборка может давать реальное представление о генеральной совокупности. Например, детали, как правило изготовляются рабочими разной квалификации. Если на контроль попадут только детали, изготовленные рабочими более низкой квалификации, то представление о качестве всей продукции будет «заниженным», если только детали, изготовленные рабочими более высокой квалификации, то это представление будет завышенным.

Для того чтобы по данным выборки можно было уверенно судить об интересующем нас признаке генеральной совокупности необходимо, чтобы объекты выборки правильно ее представляли. Другими словами, выборка должна правильно представлять пропорции генеральной совокупности . Это требование коротко формулируют так: выборка должна быть репрезентативной (или представительной ) .

Репрезентативность выборки обеспечивается случайностью отбора . При случайном отборе все объекты генеральной совокупности имеют одинаковую возможность попасть в выборку . В этом случае, в силу закона больших чисел , можно утверждать, что выборка будет репрезентативной. Например, о качестве зерна судят по небольшой ее пробе. Хотя число наудачу отобранных зерен мало по сравнению со всей массой зерна, но само по себе оно достаточно велико. Следовательно, характеристики выборочной совокупности будут по вероятности мало чем отличаться от характеристик генеральной совокупности.

Различают повторные и бесповторные выборки . В первом случае отобранный объект перед отбором следующего возвращается в генеральную совокупность. Во втором – отобранный в выборку объект не возвращается в генеральную совокупность. Если объем выборки значительно меньше объема генеральной совокупности, то обе выборки будут практически эквивалентны.

Во многих случаях для анализа тех или иных экономических процессов важен порядок получения статистических данных. Но при рассмотрении так называемых пространственных данных порядок их получения не играет существенной роли. Кроме того, результаты выборочных значений x 1 , x 2 , …, x n количественного признака X генеральной совокупности, записанные в порядке их регистрации, обычно труднообозримы и неудобны для дальнейшего анализа. Задачей описания статистических данных является получение такого их представления, которое позволит наглядно выявить вероятностные характеристики. Для этого применяются различные формы упорядочения и группировки данных.

Статистический материал, получающийся в результате наблюдений (измерений) можно записать в виде таблицы, состоящей из двух строк. В первой строке отмечается номер измерения, во втором – полученной значение. Такая таблица называется простым статистическим рядом :

i n
x 1 x 2 x i x n

Однако при большом числе измерений статистический ряд трудно анализировать. Поэтому результаты наблюдений необходимо каким-либо образом упорядочить . Для этого наблюдаемые значения располагают в порядке их возрастания:

где . Такой статистический ряд называется ранжированным .

Поскольку некоторые значения статистического ряда могут иметь одинаковые значения, то их можно объединить. Тогда каждому значению x i будет поставлено в соответствие число n i , равное частоте появлений данного значения:

x 1 x 2 x k
n 1 n 2 n k

Такой ряд называется сгруппированным .

Ранжированный и сгруппированный ряд называется вариационным . Наблюдаемые значения x i называются вариантами , а число всех наблюдений варианты n i частотой . Число всех наблюдений n называется объемом вариационного ряда. Отношение частоты n i к объему ряда n называется относительной частотой :

Кроме дискретных вариационных рядов, применяются и интервальные вариационные ряды. Для построения такого ряда необходимо определить величину интервалов и в соответствии сними группировать результаты наблюдений:

[x 1 , x 2 ] (x 2 , x 3 ] (x 3 , x 4 ] (x k-1 , x k ]
n 1 n 2 n 3 n k

Интервальный вариационный ряд строят обычно в тех случаях, когда число наблюдавшихся вариантов очень велико. Обычно такая ситуация возникает при наблюдении за непрерывной величиной (например, измерение какой-либо физической величины). Между интервальными и дискретными вариационными рядами существует определенная взаимосвязь: любой дискретный ряд можно записать в виде интервального и наоборот.

Для графического описания дискретного вариационного ряда использую полигон . Для построения полигона в прямоугольной системе координат наносят точки с координатами (x i ,n i ) или (x i ,w i ). Затем эти точки соединяют отрезками. Полученная ломаная линия называется полигоном (см., например, рис. 3.1а).

Для графического описания интервального вариационного ряда используют гистограмму . Для ее построения по оси абсцисс откладывают отрезки, изображающие интервалы варьирования, и на этих отрезках, как на основании, строят прямоугольники с высотами, равными частотам или относительным частотам соответствующего интервала. В результате получается фигура, состоящая из прямоугольников, которая и называется гистограммой (см., например, рис. 3.1б).

а б
Рис. 3.1

Числовые характеристики статистического ряда

Построение вариационного ряда – лишь первый шаг к осмыслению ряда наблюдений. Этого недостаточно для полного исследования распределения изучаемого явления. Наиболее удобным и полным методом является аналитической способ исследования ряда, состоящий в вычислении числовых характеристик. Числовые характеристики, применяемые для исследования вариационных рядов, аналогичны тем, которые применяются в теории вероятностей.

Наиболее естественной характеристикой вариационного ряда является понятие средней величины . В статистике используют несколько видов средних величин: среднее арифметическое, среднее геометрическое, среднее гармоническое и др. Наиболее распространенным является понятие средней арифметической величины :

Если по данным наблюдений построен вариационный ряд, то используется понятие средней взвешенной арифметической величины :

. (3.3)

Средняя арифметическая величина обладает теми же самыми свойствами, что и математическое ожидание.

В качестве меры рассеяния значений наблюдаемой величины вокруг своего среднего значения принимают величину

, (3.4)

которая, как и в теории вероятностей, называется дисперсией . Величина

называется средним квадратичным отклонением (или стандартным отклонением ). Статистическая дисперсия обладает теми же самыми свойствами, что и вероятностная дисперсия, и для ее вычисления можно использовать альтернативную формулу

. (3.6)

Пример 3.1. По территориям региона приводятся данные за 199X г. (таб. 3.1).

Таблица 3.1

Найти среднее арифметическое и стандартное отклонение. Постройте гистограмму частот.

Решение. Для расчета средней арифметической и дисперсии строим расчетную таблицу (табл. 3.4):

Таблица 3.4

x i n i n i x i n i x i 2
Сумма

Здесь вместо x i взяты середины соответствующих интервалов. По данным таблицы находим:

, ,

Построим гистограмму частот по исходным данным (рис. 3.3). â

Основные статистические характеристики делят на две основные группы: меры центральной тенденции и характеристики вариации.

Центральную тенденцию выборки позволяют оценить такие статистические характеристики, как среднее арифметическое значение, мода, медиана.

Наиболее просто получаемой мерой центральной тенденции является мода. Мода (Мо) – это такое значение в множестве наблюдений, которое встречается наиболее часто. В совокупности значений (2, 6, 6, 8, 7, 33, 9, 9, 9, 10) модой является 9, потому что оно встречается чаще любого другого значения. В случае, когда все значения в группе встречаются одинаково часто, считают, что эта группа не имеет моды.

Когда два соседних значения в ранжированном ряду имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений.

Если два несмежных значения в группе имеют равные частоты, и они больше частот любого значения, то существуют две моды (например, в совокупности значений 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами являются 11 и 14); в таком случае группа измерений или оценок является бимодальной .

Наибольшей модой в группе называется единственное значение, которое удовлетворяет определению моды. Однако во всей группе может быть несколько меньших мод. Эти меньшие моды представляют собой локальные вершины распределения частот.

Медиана(Me) – середина ранжированного ряда результатов измерений. Если данные содержат четное число различных значений, то медиана есть точка, лежащая посередине между двумя центральными значениями, когда они упорядочены.

Среднее арифметическое значение для неупорядоченного ряда измерений вычисляют по формуле:

,

где
. Например, для данных 4,1; 4,4; 4,5; 4,7; 4,8 вычислим :

.

Каждая из выше вычисленных мер центра является наиболее пригодной для использования в определенных условиях.

Мода вычисляется наиболее просто – ее можно определить на глаз. Более того, для очень больших групп данных это достаточно стабильная мера центра распределения.

Медиана занимает промежуточное положение между модой и средним с точки зрения ее вычисления. Эта мера получается особенно легко в случае ранжированных данных.

Среднее множество данных предполагает в основном арифметические операции.

На величину среднего влияют значения всех результатов. Медиана и мода не требуют для определения всех значений. Посмотрим, что произойдет со средним, медианой и модой, когда удвоится максимальное значение в следующем множестве:



Множество 1: 1, 3, 3, 5, 6, 7, 8 33/7 5 3

Множество 2: 1, 3, 3, 5, 6, 7, 16 41/7 5 3

На величину среднего особенно влияют результаты, которые называют “выбросами”, т.е. данные, находящиеся далеко от центра группы оценок.

Вычисление моды, медианы или среднего – чисто техническая процедура. Однако выбор из этих трех мер и их интерпретация зачастую требуют определенного размышления. В процессе выбора следует установить следующее:

– в малых группах мода может быть совершенно нестабильной. Например, мода группы: 1, 1, 1, 3, 5, 7, 7, 8 равна 1; но если одна из единиц превратится в нуль, а другая – в два, то мода будет равна 7;

– на медиану не влияют величины “больших” и “малых” значений. Например, в группе из 50 значений медиана не изменится, если наибольшее значение утроится;

– на величину среднего влияет каждое значение. Если одно какое-нибудь значение меняется на c единиц, изменится в том же направлении на c/n единиц;

– некоторые множества данных не имеют центральной тенденции, что часто вводит в заблуждение при вычислении только одной меры центральной тенденции. Особенно это справедливо для групп, имеющих более чем одну моду;

– когда считают, что группа данных является выборкой из большой симметричной группы, среднее выборки, вероятно, ближе к центру большой группы, чем медиана и мода.

Все средние характеристики дают общую характеристику ряда результатов измерений. На практике нас часто интересует, как сильно каждый результат отклоняется от среднего значения. Однако легко можно представить, что две группы результатов измерений имеют одинаковые средние, но различные значения измерений. Например, для ряда 3, 6, 3 – среднее значение = 4; для ряда 5, 2, 5 – также среднее значение = 4, несмотря на существенное различие этих рядов.

Поэтому средние характеристики всегда необходимо дополнять показателями вариации, или колеблемости.



К характеристикам вариации , или колеблемости , результатов измерений относят размах варьирования, дисперсию, среднее квадратическое отклонение, коэффициент вариации, стандартную ошибку средней арифметической.

Самой простой характеристикой вариации является размах варьирования . Его определяют как разность между наибольшим и наименьшим результатами измерений. Однако он улавливает только крайние отклонения, но не отражает отклонений всех результатов.

Чтобы дать обобщающую характеристику, можно вычислить отклонения от среднего результата. Например, для ряда 3, 6, 3 значения будут следующими: 3 – 4 = – 1; 6 – 4 = 2; 3 – 4 = – 1. Сумма этих отклонений (– 1) + 2 + (– 1) всегда равна 0. Чтобы избежать этого, значения каждого отклонения возводят в квадрат: (– 1) 2 + 2 2 + (– 1) 2 = 6.

Значение делает отклонения от средней более явственными: малые отклонения становятся еще меньше (0,5 2 =0,25), а большие – еще больше (5 2 = 25). Получившуюся сумму называют суммой квадратов отклонений . Разделив эту сумму на число измерений, получают средний квадрат отклонений, или дисперсию . Она обозначается s 2 и вычисляется по формуле:

.

Если число измерений не более 30, т.е. n ≤ 30, используется формула:

.

Величина n – 1 = k называется числом степеней свободы , под которым подразумевается число свободно варьирующих членов совокупности. Установлено, что при вычислении показателей вариации один член эмпирической совокупности всегда не имеет степени свободы.

Эти формулы применяются, когда результаты представлены неупорядоченной (обычной) выборкой.

Из характеристик колеблемости наиболее часто используется среднее квадратическое отклонение , которое определяется как положительное значение корня квадратного из значения дисперсии, т.е.:

.

Среднее квадратическое отклонение или стандартное отклонение характеризует степень отклонения результатов от среднего значения в абсолютных единицах и имеет те же единицы измерения, что и результаты измерения.

Однако для сравнения колеблемости двух и более совокупностей, имеющих различные единицы измерения, эта характеристика не пригодна.

Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах. Вычисляется он по формуле:

.

В спортивной практике колеблемость результатов измерений в зависимости от величины коэффициента вариации считают небольшой
(0 – 10 %), средней (11 – 20 %) и большой (V > 20 %).

Коэффициент вариации имеет большое значение в статистической обработке результатов измерений, т. к., будучи величиной относительной (измеряется в процентах), позволяет сравнивать между собой колеблемость результатов измерений, имеющих различные единицы измерения. Коэффициент вариации можно использовать лишь в том случае, если измерения выполнены в шкале отношений.

Основные статистические характеристики делят на две основные группы: меры центральной тенденции и характеристики вариации.

Центральную тенденцию выборки позволяют оценить такие статистические характеристики, как среднее арифметическое значение, мода, медиана.

Наиболее просто получаемой мерой центральной тенденции является мода. Мода (Мо) – это такое значение в множестве наблюдений, которое встречается наиболее часто. В совокупности значений (2, 6, 6, 8, 7, 33, 9, 9, 9, 10) модой является 9, потому что оно встречается чаще любого другого значения. В случае, когда все значения в группе встречаются одинаково часто, считают, что эта группа не имеет моды.

Когда два соседних значения в ранжированном ряду имеют одинаковую частоту и они больше частоты любого другого значения, мода есть среднее этих двух значений.

Если два несмежных значения в группе имеют равные частоты, и они больше частот любого значения, то существуют две моды (например, в совокупности значений 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами являются 11 и 14); в таком случае группа измерений или оценок является бимодальной .

Наибольшей модой в группе называется единственное значение, которое удовлетворяет определению моды. Однако во всей группе может быть несколько меньших мод. Эти меньшие моды представляют собой локальные вершины распределения частот.

Медиана (Me) – середина ранжированного ряда результатов измерений. Если данные содержат четное число различных значений, то медиана есть точка, лежащая посередине между двумя центральными значениями, когда они упорядочены.

Среднее арифметическое значение для неупорядоченного ряда измерений вычисляют по формуле:

где . Например, для данных 4,1; 4,4; 4,5; 4,7; 4,8 вычислим :

.

Каждая из выше вычисленных мер центра является наиболее пригодной для использования в определенных условиях.

Мода вычисляется наиболее просто – ее можно определить на глаз. Более того, для очень больших групп данных это достаточно стабильная мера центра распределения.

Медиана занимает промежуточное положение между модой и средним с точки зрения ее вычисления. Эта мера получается особенно легко в случае ранжированных данных.

Среднее множество данных предполагает в основном арифметические операции.

На величину среднего влияют значения всех результатов. Медиана и мода не требуют для определения всех значений. Посмотрим, что произойдет со средним, медианой и модой, когда удвоится максимальное значение в следующем множестве:

Множество 1: 1, 3, 3, 5, 6, 7, 8 33/7 5 3

Множество 2: 1, 3, 3, 5, 6, 7, 16 41/7 5 3

На величину среднего особенно влияют результаты, которые называют “выбросами”, т.е. данные, находящиеся далеко от центра группы оценок.

Вычисление моды, медианы или среднего – чисто техническая процедура. Однако выбор из этих трех мер и их интерпретация зачастую требуют определенного размышления. В процессе выбора следует установить следующее:

– в малых группах мода может быть совершенно нестабильной. Например, мода группы: 1, 1, 1, 3, 5, 7, 7, 8 равна 1; но если одна из единиц превратится в нуль, а другая – в два, то мода будет равна 7;

– на медиану не влияют величины “больших” и “малых” значений. Например, в группе из 50 значений медиана не изменится, если наибольшее значение утроится;

– на величину среднего влияет каждое значение. Если одно какое-нибудь значение меняется на c единиц, изменится в том же направлении на c/n единиц;

– некоторые множества данных не имеют центральной тенденции, что часто вводит в заблуждение при вычислении только одной меры центральной тенденции. Особенно это справедливо для групп, имеющих более чем одну моду;

– когда считают, что группа данных является выборкой из большой симметричной группы, среднее выборки, вероятно, ближе к центру большой группы, чем медиана и мода.

Все средние характеристики дают общую характеристику ряда результатов измерений. На практике нас часто интересует, как сильно каждый результат отклоняется от среднего значения. Однако легко можно представить, что две группы результатов измерений имеют одинаковые средние, но различные значения измерений. Например, для ряда 3, 6, 3 – среднее значение = 4; для ряда 5, 2, 5 – также среднее значение = 4, несмотря на существенное различие этих рядов.

Поэтому средние характеристики всегда необходимо дополнять показателями вариации, или колеблемости.

К характеристикам вариации , или колеблемости , результатов измерений относят размах варьирования, дисперсию, среднее квадратическое отклонение, коэффициент вариации, стандартную ошибку средней арифметической.

Самой простой характеристикой вариации является размах варьирования . Его определяют как разность между наибольшим и наименьшим результатами измерений. Однако он улавливает только крайние отклонения, но не отражает отклонений всех результатов.

Чтобы дать обобщающую характеристику, можно вычислить отклонения от среднего результата. Например, для ряда 3, 6, 3 значения будут следующими: 3 – 4 = – 1; 6 – 4 = 2; 3 – 4 = – 1. Сумма этих отклонений (– 1) + 2 + (– 1) всегда равна 0. Чтобы избежать этого, значения каждого отклонения возводят в квадрат: (– 1) 2 + 2 2 + (– 1) 2 = 6.

Значение делает отклонения от средней более явственными: малые отклонения становятся еще меньше (0,5 2 =0,25), а большие – еще больше (5 2 = 25). Получившуюся сумму называют суммой квадратов отклонений . Разделив эту сумму на число измерений, получают средний квадрат отклонений, или дисперсию . Она обозначается s 2 и вычисляется по формуле:

.

Если число измерений не более 30, т.е. n ≤ 30, используется формула:

.

Величина n – 1 = k называется числом степеней свободы , под которым подразумевается число свободно варьирующих членов совокупности. Установлено, что при вычислении показателей вариации один член эмпирической совокупности всегда не имеет степени свободы.

Эти формулы применяются, когда результаты представлены неупорядоченной (обычной) выборкой.

Из характеристик колеблемости наиболее часто используется среднее квадратическое отклонение , которое определяется как положительное значение корня квадратного из значения дисперсии, т.е.:

.

Среднее квадратическое отклонение или стандартное отклонение характеризует степень отклонения результатов от среднего значения в абсолютных единицах и имеет те же единицы измерения, что и результаты измерения.

Однако для сравнения колеблемости двух и более совокупностей, имеющих различные единицы измерения, эта характеристика не пригодна.

Коэффициент вариации определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах. Вычисляется он по формуле:

.

В спортивной практике колеблемость результатов измерений в зависимости от величины коэффициента вариации считают небольшой
(0 – 10 %), средней (11 – 20 %) и большой (V > 20 %).

Коэффициент вариации имеет большое значение в статистической обработке результатов измерений, т. к., будучи величиной относительной (измеряется в процентах), позволяет сравнивать между собой колеблемость результатов измерений, имеющих различные единицы измерения. Коэффициент вариации можно использовать лишь в том случае, если измерения выполнены в шкале отношений.

2.4.2. Анализ статистических данных в MS Excel. Инструменты анализа: описательная статистика, корреляция.

В состав электронных таблиц Microsoft Excel входит так называемый пакет анализа – набор инструментов, предназначенный для решения сложных статистических задач. Данный пакет производит анализ статистических данных с помощью макрофункций и позволяет, выполнив одно действие, получить на выходе большое количество результатов. В пакете анализа, имеющемся в Excel, среди прочих инструментов анализа имеется разделы «Описательная статистика» и «Корреляция».

Инструмент «Описательная статистика» позволяет нам получить значительный перечень рассчитанных статистических характеристик для большого количества числовых рядов. С помощью инструмента «Корреляция» мы получаем корреляционную матрицу, содержащую все возможные парные коэффициенты корреляции. Для k рядов будет получено k (k – 1)/2 коэффициентов корреляции.

Пакет анализа вызывается с помощью пункта меню Сервис – Анализ данных… Если этот пункт меню отсутствует, значит, пакет анализа не установлен. Для его установки надо вызвать пункт меню Сервис – Надстройки… и включить надстройку «Пакет анализа», ОК (см. рисунок 1).

Рисунок 1. Диалоговое окно включения/выключения надстроек

После включения надстройки «Пакет анализа» будет доступен пункт меню Сервис – Анализ данных… При его выборе появляется следующее диалоговое окно (рисунок 2).

Рисунок 2. Диалоговое окно выбора инструмента для анализа данных

После выбора инструмента «Описательная статистика» и нажатия ОК появится еще одно диалоговое окно (рисунок 3), требующее ввода входных данных и места вывода результатов. Здесь достаточно в поле «Входной интервал» ввести диапазон ячеек, содержащих исходные данные. Можно указать диапазон с заголовками столбцов, в этом случае потребуется включить флажок «Метки в первой строке». Для указания выходного интервала достаточно указать только левую верхнюю ячейку диапазона. Результаты вычисления автоматически займут требуемое количество строк и столбцов в таблице.

Рисунок 3. Диалоговое окно инструмента «Описательная статистика»

Рассмотрим работу инструмента анализа «Описательная статистика» на следующем примере. В процессе обследования группы школьников (n = 21) измерялись следующие показатели: рост, масса тела, динамометрия правой и левой руки, жизненная емкость легких, проба Штанге и проба Генчи. Результаты были занесены в таблицу (рисунок 4).

Для получения статистических характеристик воспользуемся пакетом анализа, инструментом «Описательная статистика». В поле «Входной интервал» занесем диапазон ячеек В1:Н22. Так как выделенный входной интервал содержит заголовки столбцов, включаем флажок «Метки в первой строке». Для удобства работы в качестве места выхода результата выбираем «Новый рабочий лист». В качестве выводимых данных отметим флажками «Итоговая статистика» и «Уровень надежности: 95 %». Последний флажок позволит вывести параметры доверительного интервала с доверительной вероятностью 0,95. Полученный результат после небольшого форматирования будет выглядеть так, как показано на рисунке 5.

Рисунок 4. Результаты обследования группы школьников

Рисунок 5. Результат работы инструмента «Описательная статистика»

После выбора инструмента «Корреляция» и нажатия ОК в диалоговом окне «Анализ данных» (рисунки 2, 6) появится еще одно диалоговое окно (рисунок 7), требующее ввода входных данных и места вывода результатов. Здесь достаточно в поле «Входной интервал» ввести диапазон ячеек, содержащих исходные данные. Можно указать диапазон с заголовками столбцов, в этом случае потребуется включить флажок «Метки в первой строке». Для указания выходного интервала достаточо указать только левую верхнюю ячейку диапазона. Результаты вычисления автоматически займут требуемое количество строк и столбцов в таблице.

Рисунок 6. Диалоговое окно выбора инструмента для анализа данных

Рисунок 7. Диалоговое окно инструмента «Корреляция»

Рассмотрим работу инструмента анализа «Корреляция» на примере, представленном на рисунке 4.

Для получения корреляционной матрицы воспользуемся пакетом анализа, инструментом «Корреляция». В поле «Входной интервал» занесем диапазон ячеек В1:Н22. Так как выделенный входной интервал содержит заголовки столбцов, включаем флажок «Метки в первой строке». Для удобства работы в качестве места выхода результата выбираем «Новый рабочий лист». Полученный результат после небольшого форматирования будет выглядеть так, как показано на рисунке 8.

Рисунок 8. Корреляционная матрица

Таким образом, путем выполнения несложных операций мы получаем большое количество результатов вычислений. Стоит отметить, что хотя информационные технологии открывают перед исследователем возможности получения огромного количества информации для анализа, отбор наиболее информативных результатов, окончательная интерпретация и формулировка выводов – работа самого исследователя.

Основные понятия корреляционного анализа экспериментальных данных. Оценка коэффициента корреляции по экспериментальным данным.

В спортивных исследованиях между изучаемыми показателями часто обнаруживается взаимосвязь. Вид ее бывает различным. Например, определение ускорения по известным данным скорости, второй закон Ньютона и другие характеризуют так называемую функциональную зависимость, или взаимосвязь, при которой каждому значению одного показателя соответствует строго определенное значение другого.

К другому виду взаимосвязи относят, например, зависимость веса от длины тела. Одному значению длины тела может соответствовать несколько значений веса и наоборот. В таких случаях, когда одному значению одного показателя соответствует несколько значений другого, взаимосвязь называют статистической .

Изучению статистической взаимосвязи между различными показателями в спортивных исследованиях уделяют большое внимание, поскольку это позволяет вскрыть некоторые закономерности и в дальнейшем описать их как словесно, так и математически с целью использования в практической работе тренера и педагога.

Среди статистических взаимосвязей наиболее важны корреляционные . Корреляция – это статистическая зависимость между случайными величинами, при которой изменение одной из случайных величин приводит к изменению математического ожидания (среднего значения) другой. Например, толкание ядра 3 кг и 5 кг. Улучшение результатов толкания ядра 3 кг вызывает улучшение (в среднем) результата в толкании ядра весом 5 кг.

Статистический метод, который используется для исследования взаимосвязей, называется корреляционным анализом . Основной задачей его является определение формы, тесноты и направленности взаимосвязи изучаемых показателей. Корреляционный анализ позволяет исследовать только статистическую взаимосвязь. Он широко используется в теории тестов для оценки их надежности и информативности. Различные шкалы измерений требуют разных вариантов корреляционного анализа.

Величина коэффициента взаимосвязи рассчитывается с учетом шкалы, использованной для измерений.

Для оценки взаимосвязи, когда измерения производят в шкале отношений или интервалов и форма взаимосвязи линейная, используется коэффициент корреляции Бравэ-Пирсона (коэффициенты корреляции для других шкал измерения в данном пособии не рассматриваются). Обозначается он латинской буквой – r. Вычисление значения r чаще всего производят по формуле:

,

где и – средние арифметические значения показателей x и y, и – средние квадратические отклонения, n – число измерений (испытуемых).

В некоторых случаях тесноту взаимосвязи определяют на основании коэффициента детерминации D, который вычисляется по формуле:

.

Этот коэффициент определяет часть общей вариации одного показателя, которая объясняется вариацией другого показателя. Например, коэффициент корреляции r = –0,677 (между результатами в беге на 30 м с ходу и тройном прыжке с места). Коэффициент детерминации равен:

Следовательно, 45,8 % рассеяния спортивного результата в тройном прыжке объясняется изменением результатов в беге на 30 м. Иными словами, на оба исследуемых признака действуют общие факторы, вызывающие варьирование этих признаков, и доля общих факторов составляет 45,8%. Остальные 100% – 45,8% = 54,2% приходятся на долю факторов, действующих на исследуемые признаки избирательно.

Оценить статистическую достоверность коэффициента корреляции – это значит определить, существует или нет линейная корреляционная связь между генеральными совокупностями или, что то же, установить, существенно или несущественно отличается от нуля коэффициент корреляции между выборками. Эта задача может быть решена с помощью таблиц критических точек распределения коэффициента корреляции в следующем порядке:

1. Выдвигаются статистические гипотезы. Гипотеза Н 0 предполагает отсутствие статистически значимой взаимосвязи между исследуемыми показателями (r ген =0). Гипотеза Н 1 предполагает, что существует статистически достоверная взаимосвязь между показателями (r ген >0).

2. Рассчитывается наблюдаемое значение коэффициента корреляции r набл .

3. Находится по таблице критическое значение коэффициента корреляции r крит в зависимости от объема выборки n , уровня значимости a и вида критической области (односторонняя или двусторонняя).

3. Сравнивается r набл и r крит .

Если r набл < r крит – статистически недостоверным (незначимым). Принимается гипотеза Н 0 Если r набл r крит , коэффициент корреляции считается статистически достоверным (значимым). Принимается гипотеза Н 1 .