Make your own free website on Tripod.com

פרופ' זאב בנימין אלפסי

סטטיסטיקה, הסתברות, תכנון ליניארי והנדסה אנליטית (ל- 3 יחידות)

Статистика, теория вероятности, линейное программирование и аналитическая

геометрия (на 3 единицы обучения). Проф. Зеев Беньямин Альфаси

 

1.Статистика

1.1. Введение

Статистика это раздел математики, занимающийся анализом данных, которые накапливаются в ходе различных опытов, или в иных системах. Статистика занимается обобщенной характеристикой этих данных и их исследованием. Накопление этих данных и их оценка является основанием для многочисленных заключений в повседневной жизни, например, для начисления выплат страховыми компаниями, при проверке качества продукции и прогнозировании погоды. Мы будем изучать только основные понятия статистики. На первом этапе статистика занимается накоплением данных по ряду объектов. Эти данные могут быть количественными(вроде - роста человека, веса помидор, отметок учащихся) или качественными(например, цвет). Количественные переменные могут быть непрерывными, т.е. принимающими любые значения (когда измеряют высоту, вес, длину и т.п.) или дискретными, т.е. принимающими только определенные значения. Дискретные значения это обычно натуральные числа, используемые для счета, вроде числа спичек в коробке или числа дефектных шурупов в пакете, или числа верных ответов на экзамене и т.п. Собранные данные могут составлять исчерпывающий набор, или только часть данных - представительную выборку. Объекты, относительно которых собираются данные, называются пространством измерений или пространством выборки. Измеряемое свойство называется изеряемой переменной, например, отметка учеников в классе, вес жителей деревни, возраст жителей города и т.п. Обычно значение измеряемой переменной обозначается через х, а значение переменной для различных объектов обозначается х1, х2, ... , хn. Итак, в статистических исследованиях накапливают необработанные данные и специальными математическими средствами организуют их в виде, позволяющем истолковать эти данные и дать по ним заключения.

 

1.2. Среднее значение

Когда в статистке говорят о среднем значении, всегда имеется ввиду среднее арифметическое(существуют и другие средние, вроде среднего геометрического и среднего гармонического, но ими мы не будем заниматься). Среднее значение мы будем обозначать верхним подчеркиванием переменной (не нашел в Word верхнего подчеркивания, придется пока так х). Рассмотрим пример, в котором измеряют вес членов одной семьи. Обозначим вес буквой х, которая обычно обозначает любую измеряемую величину. Утром вес главы семьи составил 83 кг, а вес жены 71 кг. Чему равен средний вес? Средний вес определен как сумма весов двух супругов, деленная на 2. Т.е. х = (71 + 83)/2 = 154/2 = 77. Затем вернулся младший сын из садика, его вес оказался равным 26 кг. Чему равен средний вес двух родителей и младшего сына? И здесь получим сумму всех весов, но вместо деления на 2, поделим на 3, поскольку это число объектов(предметов), вес которых измеряли: х = (71 + 83 + 23)/3 = 180/3 = 60. После обеда из школы вернулся старший сын, и он также был взвешен и его вес оказался равным 60 кг. Чему теперь равен средний вес всех домочадцев? х = (71 + 83 + 23 + 60)/4 = 240/4 = 60.

Для получения среднего делили на 4, поскольку складывали вес 4 объектов.

Интересная деталь: средний вес не изменился с присоединением к группе(множеству) старшего сына. Когда добавляют к измеряемому множеству дополнительный предмет, значение измеренной переменной которого равно среднему значению до его добавления, это действие не приводит к изменению среднего. Аналогично, соединение двух множеств с одинаковыми средними создает расширенное множество, среднее значение которого тождественно общему среднему двух частичных множеств. В дальнейшем мы покажем это математическими формулами.

 

Общее определение среднего. Если измерены n значений переменной и полученные результаты есть x1, x2, .... , xn, то среднее значение выражается посредством фомулы

x = (x1 + x2 + .... + xn)/n

Числитель есть сумма чисел. Можно обозначить коротко сумму с помощью греческой буквы Σ. Коротко обозначим сумму x1 + x2 + .... + xn через Σxi. Запишем теперь формулу среднего значения : x = (x1 + x2 + .... + xn)/n = Σxi/n.

xi есть измеряемое значение, а n есть число измерений.

Пример. Медицинская проверка семьи из 7 человек включала измерения веса, роста и кровяного давления каждого члена семьи. Данные помещены в следующую таблицу. Вычисли средние значения возраста(A), веса(W), роста(H), кровяного давления(P) членов семьи.

Возраст (A)

16 20 25 28 30 48 55

ΣА = 222

Вес (W)

70 81 60 83 68 72 87

ΣW = 521

Рост (H)

178 182 171 183 169 164 178

ΣH = 1225

Кровяное давление (P)

100 100 100 85 90 120 110

ΣP = 705

Буква Σ в последней колонке обозначает сумму. Т.е. ΣА есть сумма ростов, ΣW - сумма весов. В правой колонке таблицы мы вычислилу сумму значений измеренных переменных. Среднее значение получится в результате деления суммы на число измерений - 7.

А = 222/7 = 31.71, W = 521/7 = 74.43, H = 1225/7 = 175, P = 705/7 = 100.71.

Упражнения повторения. Упражнение 1.

Предположим, что мы располагаем двумя множествами. В первом множестве есть n предметов, а среднее значение измеренной переменной x = a. Второе множество состоит из m предметов, а среднее значение измеренной переменной x = b. Чему равняется это среднее значение для двух множеств вместе?

Обозначим значения переменной, измеренных у членов первого множества, x1, x2, x3, .... , xn . Значения переменной, измеренные у членов второго множества , начинаются с xn+1, а завершаются на xn+m . Согласно условия задачи для среднего значения первого множества справедливо:

(x1 + x2 + .... + xn)/n = a x1 + x2 + .... + xn = na .

Аналогичные действия относительно членов второго множества дадут :

(xn+1 + xn+2 + .... + xn+m)/m = b xn+1 + xn+2 + .... + xn+m = mb .

Среднее значение переменной для членов обоих множеств вместе :

(x1 + x2 + .... + xn + xn+1 + .... + xn+m)/(n + m) = ((x1 + x2 + ... + xn) + (xn+1 + .... + xn+m))/(n + m)

Подставим вместо двух скобок в числителе выражения согласно выше написаннных формул и получим :

= (na + mb)/(n + m).

Когда у двух множеств средние значения одинаковые, т.е. a = b, общая средняя будет:

= (na + ma)/(n + m) = a(n + m)/(n + m) = a.

Т.е. когда у двух различных множеств средние значения одинаковые, то, если объединить эти множества, общая средняя объединенного множества будет равна среднему каждого из исходных множеств.

1.Средний вес пяти членов одной семьи равен 78 кг, а средний вес семи членов другой семьи - 84 кг. Чему равен средний вес двух этих семей вместе?

Решение. Обозначим членов первой семьи номерами от 1 до 5. Т.е. обозначим их вес через x1, x2, x3, x4, x5. Из данного среднего веса можно найти сумму весов :

x = (x1 + x2 + x3 + x4 + x5)/5 = 78 x1 + x2 + x3 + x4 + x5 = 578 = 390 кг.

Таким же образом, обозначив веса членов второй семьи через x6, x7,..., x12, можем получить сумму их весов :

x = (x6 + x7 + ... + x11 + x12)/7 = 84 x6 + x7 + ... + x11 + x12 = 784 = 588 кг.

Суммарный вес двеннадцати членов двух семей можно получить сложением выше указанных сумм :

x1 + x2 + ... + x12 = (x1 + ... + x5) + (x6 + ... + x12) = 390 + 588 = 978 кг.

Средний вес обеих семей равен x = (x1 + x2 + ... + x12)/12 = 978/12 = 81.5 кг.

 

 

2. В одной группе 18 человек и их средний вес равен 81 кг. Во второй группе 12 человек. Средний вес людей обеих групп вместе равен 83 кг. Найди средний вес членов второй группы.

Решение. Запишем формулу среднего веса членов первой группы, где обозначим номера людей от 1 до 18.

x = (x1 + x2 + ... + x18)/18 = 81 x1 + x2 + ... + x18 = 1881 = 1458.

Теперь запишем эту формулу для объединенной группы, где номера 1 - 18 выделены для членов первой группы, а номера 19 - 30 - членам второй группы.

x = (x1 + x2 + ... + x30)/30 = 83 x1 + x2 + ... + x30 = 3083 = 2490.

Сумма 30 слагаемых подразделяется на две суммы, одна для членов первой группы, а вторая для членов второй группы.

x1 + x2 + ... + x30 = (x1 + x2 + ... + x18) + (x19 + x20 + ... + x30) = 2490.

Сумма в скобках слева найдена нами выше и она равна 1458. С помощью переноса ее направо получим : x19 + x20 + ... + x30 = 2490 - 1458 = 1032.

Из определения среднего значения средний вес членов второй группы :

x = (x19 + x20 + ... + x30)/12 = 1032/12 = 86.

Ответ. Средний вес членов второй группы 86 кг.

3. В классе 30 учеников. На одном из экзаменов ученики получили отметки либо 6, либо 9. Средняя отметка была 7. Сколько учеников получили 9?

Решение. Обозначим через у число учеников, получивших 9. Сумма их отметок 9у. Число учеников, получивших 6, равно 30-у, поэтому сумма их отметок 6(30-у). Сумма всех отметок 9у + 6(30-у) = 180 + 3у. Среднюю оценку можно получить посредством деления суммы оценок на число слагаемых :

x = 7 = (180 + 3y)/30 210 = 180 + 3y y = 10.

Ответ. Отметку 9 получили 10 учеников.

4. Средняя оценка 20 учеников группы a равна 70. В группе b 8 учеников. Перевели 2 учеников из группы a в группу b. Средняя оценка группы a после перевода двух учеников в группу b не изменилась. А вот средняя оценка группы b упала на 2 единицы. Найди, какой была исходная средняя оценка учеников группы b и какой она стала после перевода двух учеников из группы a.

Решение. Выше мы видели, что при объединении двух множеств с одинаковым средним, это среднее значение сохраняется и для объединенного множества. Закон этот действителен и для обратного действия. Если извлекают из большого множества некое подмножество, для сохранения прежнего среднего необходимо, чтобы среднее значение подмножества было таким же. Т.е. средняя оценка двух учеников, переведенных из группы a, должна быть 70. Мы увидим это и посредством формул. Поделим 20 учеников группы a на две части: одна с номерами 1-18, они остались в группе, и вторая с номерами 19-20, они переведены в группу b.

(x1 + x2 + ... + x20)/20 = 70 x1 + x2 + ... + x20 = 2070 = 1400.

(x1 + x2 + ... + x18)/20 = 70 x1 + x2 + ... + x18 = 1870 = 1260.

С помощью вычитания двух уравнений получим x19 + x20 = 140.

Обозначим исходную среднюю оценку учеников группы b через у. Сумму оценок ее 8 учеников S дает формула : S/8 = y S = 8y. Сумма оценок после перевода двух учеников станет S + 140, т.к. сумма оценок двух этих учеников равна 140. Новая средняя оценка в группе b равна (S + 140)/10 = (8y + s)/10. Согласно условию задачи эта средняя на 2 единицы меньше исходной средней. Т.е.

y - (8y + 140)/10 = 2 10y - 8y - 140 = 20 y = 80.

Т.е. исходная средняя была 80, а после перевода двух учеников средняя стала

(880 + 140)/10 = 780/10 = 78.

Упражнения повторения. Упражнение 2.

Таблицы частот

У данных того типа, которыми мы занимались, вроде возраста, веса и т.п., значения могут отличаться одно от других. Вместе с тем существуют случаи, когда число возможных значений ограничено и много меньше числа предметов(объектов) исследования. Например, отметка учеников класса по завершающей работе, помещаемая в свидетельство об окончании учебного года.

 

Приняты только целые оценки, и поэтому интервал оценок начинается с 4 и оканчивается на 10. В классе есть 40 учеников, т.е. для вычисления средней оценки мы должны сложить 40 различных отметок, несмотря на то, что большое число оценок равны друг другу. Вместо сложения 40 чисел удобнее подсчитать число учеников, получивших определенную оценку. Т.е. запишем сколько учеников получили 4, сколько 5 и т.д. до 10. Результат представлен в следующей таблице:

xi - отметка, измеряемая переменная

4

5

6

7

8

9

10

f i - число учеников, получивших ее

0

1

3

12

15

7

2

Число объектов, получивших одинаковое значение измеряемой переменной, называют частотой вышеназванного значения и обозначают через f i. Ясно, что сумма всех n примере 7) частот должна равняться числу объектов - N. В классе 40 учеников и поэтому должно выполняться f1 + f 2 + ... + f 7 = N = 40. Вместо того, чтобы писать x = (x1 + x2 + ... + xN)/N = Σxi /N , напишем

x = (f1x1 + f2x2 + ... + fnxn)/ (f1 + f2 + ... + fn) = Σfixi /Σfi = Σfixi /N.

N это общее число объектов, а n - число различных групп данных.

Например, вычислим среднюю оценку учеников в классе. Предпочтительнее выполнять вычисление среднего в таблице с исходными данными :

xi

4

5

6

7

8

9

10

 

fi

0

1

3

12

15

7

2

N = Σfi = 40

fixi

0

5

18

84

120

63

20

Σ fixi = 310

x = (f1x1 + f2x2 + ... + fnxn)/ (f1 + f2 + ... + fn) = Σfixi /Σfi = 310/40 = 7.75 .

Т.е. мы добавили еще одну строчку в первую таблицу. В этой строке мы вычисляли fixi (т.е. каждое число в третьей строке есть произведение чисел из двух верхних строк). Вычисляя сумму чисел во второй строке, получили Σfi (сумма частот = числу учеников), а сумма чисел в третьей строке дает Σ fixi . Деление суммы в третьей строке на сумму во второй дает среднюю величину. Такая таблица частот различных значений измеряемой величины называется таблицей частот или таблицей распределения значений переменной в пространстве выборки.

Проблема, с которой иногда сталкиваются учащиеся, состоит в том, как распознать что такое величина xi и что такое fi . xi это отметка? Или - число учеников? В дополнение к пониманию того, что есть переменная, можно получить намек из формулировки вопроса. Вычисляем среднюю оценку, значит отметка есть xi .

Дополнительный пример. Друзья подверглись экзамену по математике и вот их отметки: 6, 7, 7, 8, 9, 9, 9, 10. Какую среднюю оценку получили друзья?

Мы можем обычным образом написать : x = (6+7+7+8+9+9+9+10)/8 = 65/8 = 8.125 .

Или сделать это с помощью таблицы :

xi

6

7

8

9

10

 

 

fi

1

2

1

3

1

Σfi = 8

 

fixi

6

14

8

27

10

 

Σ fixi = 65

x = Σfixi /Σfi = 65/8 = 8.125 .

По мере роста числа объектов, удобнее работать с таблицей.

 

1.3. Значение моды

Мода определяется как значение измеряемой переменной, частота которой наибольшая среди полученных значений. Например, из 40 отметок за завершающую работу учащихся наиболее распространенной оценкой была 8, поскольку самое большое число учеников получили ее. У 8 друзей, экзаменовавшихся по математике, наиболее распоространенная отметка есть 9, поскольку ее получили три ученика, а остальные оценки у двух или у одного ученика. Ясно, что нельзя говорить о значении моды, когда у всех объектов различные измеренные значения. Так, например, нельзя говорить о моде(наиболее распространенном значении) возраста, веса у семьи, прошедшей медицинскую проверку. В то же время мы можем говорить о моде роста(178), т.к. у двух объектов имеет место именно такой рост. А также можно говорить о моде кровяного давления(100), такое давление отмечено у трех объектов.

Упражнения повторения. Упражнение 3.

 

 

1.4. Медиана

Определение. Медиана это такое значение переменной, что половина переменных больше или равны ему, а половина переменных меньше или равны ему. Если упорядочить все измеренные переменные по возрастанию или убыванию, то в случае нечетного количества объектов медианой окажется значение срединного объекта. Т.е. значение объекта номер (n + 1)/2 для нечетного числа объектов n.

Медиана = х(n + 1)/2

Следует обратить внимание на то, что значение медианы есть значение xi, а не номер его места в ряду. Т.е. медиана = х(n + 1)/2 , а не (n + 1)/2.

Для четного n медиана есть среднее двух чисел, находящихся посредине, т.е.

х1/2 = медиана = (хn/2 + хn/2+1 )/2. х1/2 это обозначение медианы.

Примеры. 9 учеников класса имеют следующие веса( в кг), упорядоченные по возрастанию : 59.4, 62.7, 65.1, 67.3, 68.1, 69.5, 69.9, 72.3, 74.4 . Итак, у нас есть 9 элементов, упорядоченных по возрастанию (или по убыванию, важно, чтобы был порядок), и медиана есть срединный элемент - элемент номер пять : х1/2 = 68.1 кг.

Если добавим еще одного ученика весом 75 кг, то элементов станет 10, и мода станет равной среднему пятого и шестого элементов : х1/2 = (68.1 + 69.5)/2 = 68.8 кг.

Когда мы располагаем большим числом объектов, которые делятся на группы с одинаковыми значениями переменных, можно вычислять моду с помощью частот значений переменных. Для этого добавим в таблицу две строки , в которых будем вычислять относительную частоту и накопленную относительную частоту.

Относительная частота и накопленная относительная частота

Определение. Относительная частота определена как отношение частоты группы к общему числу объектов. Т.е., если есть у нас группа номер i со значением измеряемой переменной xi и частотой f i , то относительная частота f i определена так f i = f i/( f 1 + f 2 + ... + f n) = f i/N , где N есть общее число объектов, а n - число рразличных групп данных. Например, по таблице отметок за заключительную работу всего число учеников 40. 12 учеников получили отметку 7, поэтому относительная частота отметки 7 есть 12/40 = 0.3 (частота отметки 7, поделенная на сумму частот , которая равна общему числу учеников). Накопленная относительная частота i-той группы есть сумма относительных частот, начиная с первой группы и до группы i-той. Обозначим накопленную относительную частоту через (Sf)i: (Sf)i = f 1+ f 2+ ... + f i .

Например, (Sf)4 = f 1 + f 2 + f 3 + f 4 , (Sf)3 = f 1 + f 2 + f 3 .

Добавим теперь указанные две строки к таблице заключительной работы учеников: когда мы вычисляем накопленную относительную частоту, то можем начать либо с наименьшего значения, т.е. двигаться в направлении , или с наибольшего значения, т.е. - в направлении . В обоих направлениях конечное значение должно быть 1.0 , поскольку мы подсчитываем все существующие случаи.

Переменная xi

4

5

6

7

8

9

10

 

Частота fi

0

1

3

12

15

7

2

N = Σfi = 40

fixi

0

5

18

84

120

63

20

Σ fixi = 310

Относительная частота f I

0

0.025

0.075

0.3

0.375

0.175

0.05

f I = f i/Sf I

Относительная накопленная

частота (Sf)i

 

0

1.0

 

0.025

1.0

 

0.1

0.975

 

0.4

0.9

 

0.775

0.6

 

0.95

0.225

 

1.0

0.05

(Sf)i = f1 +...+ fi

Накопленная

частота (Sf)i

 

0

 

1

 

4

 

16

 

31

 

38

 

40

 

Значение переменной xi, в котором относительная накопленная частота впервые превосходит величину 0.5 при условии, что предыдущее значение Sf меньше 0.5, и есть медиана. В нашем случае медиана равна 8. Такой результат получается и при вычислении в одном направлении (Sf)i и в другом (Sf)i . В нашем случае медиана есть среднее арифметическое значение двух измеренных переменных, у которых (Sf)i = 0.5, как это мы увидим в следующем примере.

Медиану можно найти и без вычисления относительной частоты, а с помощью

вычисления накопленной частоты - (Sf)i. Накопленная частота есть сумма всех частот, начиная с первой группы и до i-той. Так, например, для первой группы (Sf)1 = f1 = 0, для второй - (Sf)2 = f1 + f2 = 0 + 1 = 1, для третьей - (Sf)3 = f1 + f2 + f3 = = 0 + 1 + 3 = 4, для четвертой - (Sf)3 = f1 + f2 + f3 + f4 = 16. Первой группой, в которой накопленная частота станет больше половины числа переменных (N = Σfi), будет следующая, а поскольку в предыдущей группе накопленная частота меньше половины переменных, это и есть группа, в которой находится медиана. Значение переменной в этой группе и есть значение медианы. Т.к. число переменных в примере N = Σfi = 40, нам необходимо найти первую группу, в которой накопленная частота больше 20, при том, что в предыдущей группе накопленная частота меньше 20. Указанный факт имеет место в пятой группе, где xi = 8, и поэтому медиана = 8. В том случае, когда в некоторой группе накопленная частота в точности равна половине числа переменных, медиана есть среднее измеренных значений этой группы и следующей группы(группы, в которой впервые накопленная частота больше половины числа переменных, как мы увидим это в следующем примере.

Пример. Для проверки числа спичек в коробках взята выборка из 200 коробок и подсчитано число спичек в каждой из них. Результаты сведены в таблицу, в которой также подсчитаны среднее значение, мода и медиана.

Число спичек в корбке xi

51

52

53

54

55

56

57

58

59

60

Частота fi

9

11

15

15

40

10

30

30

20

20

fi xi

459

572

795

810

2200

560

1710

1740

1180

1200

Относительная частота fI

0.045

0.055

0.075

0.075

0.2

0.05

0.15

0.15

0.1

0.1

Накопленная (Sf) i

относ. частота fi (Sf) i

0.045

1.0

0.1

0.955

0.175

0.9

0.25

0.825

0.45

0.75

0.5

0.55

0.65

0.5

0.8

0.35

0.9

0.2

1.0

0.1

Накопленная частота (Sf)i

9

20

35

50

90

100

130

160

180

200

Σfi = 200 , Σ fixi = 11226 , х = Σ fixi / Σfi = 56.13 .

В направлении направо (Sf) пришли к значению 0.5 для xi = 56. В направлении налево (Sf) пришли к знчению 0.5 для xi = 57. Поэтому значение медианы равно (56 + 57)/2 = 56.5 .

Число измерений N = Σfi = 200. Накопленная частота (Sf)i приходит к его половине(100) для четвертой группы. Выше мы говорили, что когда накопленная частота для определенной группы в точности равна половине общего числа случаев, медиана равна среднему значению переменных этой группы и группы следующей за ней, в которой впервые накопленная частота становится больше половины общего числа случаев. Значение переменой, для которой (Sf)i равна 100 (половине числа переменных), есть 56, а значение переменной в следующей группе 57, поэтому значение медианы = (56 + 57)/2 = 56.5 .

Мода числа спичек в коробке это число спичек, для которого частота является наибольшей, поэтому мода числа спичек в коробке равна 55.

Подобно медиане, делящей данные на две половины, существуют квартили - три величины, которые делят данные на четыре четверти, и децили - девять величин, делящих данные на десять десятых, и процентили - девяносто девять значений, которые делят данные на сто сотых. Например, первый квартиль это значение переменной, для которой четверть измерений меньше его или равны ему, а три четверти данных больше его или равны ему. Медиана является вторым квартилем.

Упражнения повторения. Упражнение 4.

 

1.5. Среднеквадратическое отклонение

Из предыдущего примера следует, что среднее число спичек в коробке равно 56.13 , медиана равна 56.5, а наиболее распространенное число(мода) спичек есть 55. Обнаружение того, что разные меры (среднее, мода, медиана) обладают различными значениями, показывает несимметричность распределения. В дополнение к проверке распределения на симметричность согласно тождеству или отсутствию тождества различных мер мы хотим знать, насколько широко распределение (разброс). Одной из мер ширины распределения является размах выборки. Т.е. величина области значений, которые принимают переменные. Например, область оценок завершающей конторольной от 5 до 10. Область числа спичек в коробке 51 - 60. Размах выборки определяется как разница между наибольшим и наименьшим значениями измеренной переменной. В первом случае он равен 10 - 5 = 5, а во втором 60 - 51 = 9. В действительности полученные вами для вычисления размаха границы выборки (записанные границы) таковыми не являются , необходимо пользоваться истинными(действительными) границами. 51 на самом деле представляет интервал 50.5 - 51.5, а 60 представляет интервал 59.5 - 60.5, поэтому размах выборки равен 60.5 - 50.5 = 10. Такое значение размаха (10) соответствует тому, что имеется десять возможных значений переменной. Но размах не обеспечивает нас достверной мерой ширины распределения, более достверной мерой является относительный размах распределения. Это есть отношение между размахом и средним значением выборки. Но размахом или относительным размахом выборки пользуются очень редко. Более важной мерой для оценки ширины распределения являются разности между значеними измеренной величины и средним значением. Увеличение этих разностей приводит к более широкому распределению(более широкому разбросу) переменной. Но как следует обрабатывать эти отклонения от среднего? Как бы очевидный и простой метод состоит в сложении отклонений от среднего, в вычислении их суммы (x1 - x) + (x2 - x) + ... + (xn - x).

Недостаток такого метода в том, что определение среднего приводит к равенству нулю суммы отклонений. Если раскрыть все скобки и поставить среднее согласно определению, получим : (x1+x2+...+xn) - nx = (x1+x2+...+xn) - n(x1+x2+...+xn)/n = 0.

Определение среднего приводит к тому, что сумма положительных отклонений будет равняться сумме отрицательных отклонений. Это обстоятельство можно преодолеть, если заняться суммой абсолютных значений отклонений от среднего. Т.е. мы хотим вычислять |x1 - x| + |x2 - x| + ... +|xn - x|. Недостаток этого способа в том, что неудобно обрабатывать абсолютные значения в математических анализах. Чтобы предотвратить компенсацию положительных отклонений отрицательными, выполняют суммирование квадратов отклонений от среднего. Использование квадратов приводит к тому, что все выражения будут положительными. Среднее же значение квадратов отклонений от среднего, именуется дисперсией (variance) и обозначается через s2.

s2 = ((x1 -x)2 + (x2 -x)2 + ... + (xn -x)2)/n = (S(xi -x)2)/n

Недостатком последнего определения является то, что единица(размерность) дисперсии отличается от единицы измеренной величины. Например, при измерении длин в см дисперсия будет иметь размерность см2. Поэтому мы используем не дисперсию, а корень квадратный из нее.

Итак, мера, к которой мы обычно обращаемся не есть дисперсия, но корень квадратный из дисперсии, назваемый стандартным (среднеквадратичным) отклонением (размерность стандартного отклонения равна размерности измеренной переменной, поскольку размерность дисперсии равна квадрату размерности измеряемой переменной). Стандартное отклонение обозначается через s :

s = (((x1 -x)2 + (x2 -x)2 + ... + (xn -x)2)/n) = ((S(xi -x)2)/n)

Мы обозначаем стандартное отклонение через s, но существует много книг, использующих для этого греческую букву s, такое же обозначение используется калькулятором. Мы предпочитаем использовать букву s, поскольку она применяется в экзаменационных листах на аттестат зрелости. Буква же s сохраняется для обозначения стандартного отклонения непрерывного распределения; это мы будем изучать позднее в разделе, посвященном нормальному распределению. В случае непрерывного распределения мы будем обозначать среднее посредством буквы m, а не обозначения х.

Для вычисления стандартного отклонения необходимо вычислить среднее, а затем определить отклонения от среднего. Каждое из этих отклонений надо возвести в квадрат, сложить эти квадраты и разделить сумму на число данных. А в конце извлечь корень квадратный. Особенно удобно выполнять указанные действия с помощью таблиц, это мы увидим в следующей таблице. Но прежде, чем мы увидим вычисление s в следующем примере, вспомним, что есть еще один способ вычисления стандартного отклонения посредством еще одной формулы. Найдем сумму, которая участвует в выражении стандартного отклонения. Из предыдущей формулы можно получить: ns2 = (x1 -x)2 + (x2 -x)2 + ... + (xn -x)2 =

С помощью возведения в квадрат и объединения элементов получим справа:

= (x12 + x22 + ... + xn2) - 2x(x1 + x2 + ... + xn) + (x2 + x2 + ... + x2)

 

Заменим согласно связи среднего значения и суммы переменных

x = (Sxi)/n Sxi = nx или x1 + x2 + ... + xn = nx

в формуле суммы квадратов отклонений :

ns2 = (x12 + x22 + ... + xn2) - 2xnx + nx2 = (x12 + x22 + ... + xn2) - nx2

s2 = (x12 + x22 + ... + xn2)/n - x2 s = ((x12 + x22 + ... + xn2)/n - x2) = ((Sxi2)/n - x2).

Обратим внимание на различие между Sxi2 - суммой xi2, т.е. суммой квадратов переменных, и (Sxi)2 - квадратом суммы переменных. Часто удобнее пользоваться последними формулами

s = ((x12 + x22 + ... + xn2)/n - x2) или s = ((Sxi2)/n - x2)

нежели предыдущей формулой. В последней формуле мы возводим во вторую степень xi, которые часто являются целыми числами, в то время как xi -x не есть целые числа. Мы продемонстрируем в следующих примерах и использование второй формулы. Как правило, предпочитают не пользоваться этой формулой, поскольку она не дается в листе формул экзаменов на аттестат зрелости. Еще один путь, который упрощает вычисление стандартного отклонения, состоит в вычитании постоянного значения, обычно - значения моды, из всех значений xi . Мы не будем демонстрировать этот способ. Мы предпочтем пользоваться только формулами из листа формул, и поэтому проигнорируем все другие способы, если они только немного упрощают вычисления. Поскольку все возведения во вторую степень выполняются на калькуляторе, сложность использования основной формулы не слишком большая. Вторая используемая формула - для нецелого среднего, и если помним ее, можно ею пользоваться.

Пример. В первую неделю августа каждый день в 12:00 измеряли температуру(воздуха). Эти измерения в порядке дней недели, начиная с воскресенья, таковы : 26С, 31С, 34С, 33С, 28С, 29С, 32С. Вычисли среднюю температуру и стандартное отклонение.

Измеренная

переменная xi (C)

26 31 34 33 28 29 32

S xi = 213

x = 213/7 = 30.43

xi2

676 961 1156 1089 784 841 1024

S xi2 = 6531

xi - x

-4.43 0.57 3.57 2.57 -2.43 -1.43 1.57

(xi - x)2

19.61 0.33 12.76 6.61 5.90 2.04 2.47

S(xi - x)2 = 49.72

Во второй строке мы возводили во вторую степень число, находящееся в первой строке. В третьей строке мы отнимали из чисел первой строки среднее значение (которое вычислили согласно данным первой строки). В четвертой строке мы возводили в квадрат каждое число из третьей строки.

x = (S xi)/n = 213/7 = 30.43, s = ((S(xi -x)2)/n) = 7.103 = 2.665.

В этом способе мы пользовались двумя последними строками талицы, но не обращались ко второй строке. Мы могли отказаться от вычисления двух последних строк и, воспользовавшись второй строкой, записать :

s = ((Sxi2)/n - x2) = (6531.7 - 925.90) = 7.1 = 2.665.

Предпочтительнее не пользоваться этой формулой, т.к. она не включена в лист багрутных формул.

Для случая таблицы частот, т.е. когда дана таблица значений переменной и числа повторений этого значения (частота значения), будем пользоваться формулой:

s = ((f1(x1-x)2 + f2(x2-x)2 + ... + fn(xn-x)2)/(f1+ f2+ ... +fn)) = (S(fi(xi -x)2)/ Sfi) = (S(fi(xi -x)2)/N)

И эту формулу можно раскрыть посредством вычисления суммы в числителе и возведения во вторую степень выражений в скобках :

Ns2 = f1x12 - 2 f1x1x + f1x2 + f2x22 - 2 f2x2x + f2x2 + ... + fnxn2 - 2 fnxnx + fnx2 =

= (f1x12 + f2x22 + ... + fnxn2) - 2x(f1x1 + f2x2 + ... + fnxn) + x2(f1 + f2 + ... + fn)

Подставим f1x1 + f2x2 + fnxn = (f1 + f2 + ... + fn)x = Nx, f1 + f2 + ... + fn = N. И получим:

Ns2 = (f1x12 + f2x22 + ... + fnxn2) - 2Nx2 + Nx2 = (f1x12 + f2x22 + ... + fnxn2) - Nx2

s2 = (f1x12 + f2x22 + ... + fnxn2)/N - x2

s = ((f1x12 + f2x22 + ... + fnxn2)/( f1 + f2 + ... + fn)- x2) = (Sfixi2/Sfi - x2) = ((Sfixi2)/N - x2)

Пример. Исследуем в кибуце на юге Страны число детей у родителей в возрасте 40-60 лет. Результативная таблица числа детей в семье с их частотами:

 

 

 

Число детей в семье - xi

0 1 2 3 4 5 6 7

Число семей - fi

2 4 6 8 8 5 4 3

Построим полную таблицу:

xi

0

1

2

3

4

5

6

7

N = Sfi = 40

fi

2

4

6

8

8

5

4

3

Sfixi = 142

fixi

0

4

12

24

32

25

24

21

x = Sfixi/N = 3.55

xi - х

-3.55

-2.55

-1.55

-0.55

0.45

1.45

2.45

3.45

x2= 3.552 = 12.60

fi(xi - x)2

25.21

26.01

14.42

2.42

1.62

10.51

24.01

35.71

Sfi(xi - x)2=139.91

fixi2

0

4

24

72

128

125

144

147

Sfixi2 = 644

Вычислим s по двум формулам :

s = ((f1(x1 - x)2 + f2(x2 - x)2 + ... + fn(xn - x)2)/( f1 + f2 + ... + fn)) = (Sfi(xi - x)2/Sfi) =

= (139.91/40) = 1.87

s = ((f1x12 + f2x22 + ... + fnxn2)/( f1 + f2 + ... + fn)- x2) = ((Sfixi2)/N - x2) = (644/40 - 12.60) =

= 3.5 = 1.87

Напомним, что нет нужды вычислять все приведенные строки. Для первой формулы не нужна последняя строка, а для второй формулы не нужны две строки, предшествующие последней. На багрутных экзаменах предлагается первая формула, а не вторая. Но если вторую формулу помним, стоит воспользоваться двумя способами для проверки результата. Дополнительный способ проверки результатов состоит в использовании калькулятора для вычисления среднего и стандартного отклонения (см. следующий раздел).

Упражнения повторения. Упражнение 5-6.

1. Некоторое число коробок с яблоками избраны в качестве выборки, в каждой коробке установлено число яблок. Следующая таблица дает распределение результатов:

Число яблок в коробке

8 9 10 11 12 13 14 15

Число коробок

1 х 6 10 у 8 9 2

a. Среднее число яблок в коробке равно 12, вычисли х.

b. Стандартное отклонение равно 2.6, найди у.

Решение. a. При среднем, равном 12, величина у не влияет на значение среднего, т.к. число яблок в таких коробках равно среднему значению. При изменении величины у значение среднего не меняется. Поэтому можно вычислять среднее, положив у = 0. (Можно также ввести его в уравнение и увидеть, что члены, содержащие у, сокращаются). Из определения среднего имеем:

x=12 = Sfixi / Sfi = (30+126+104+110+60+9x+8)/(2+9+8+10+6+x+1)

12 = (438+9x)/(36+x) 432 + 12x = 438 + 9x ... x = 2.

b. Подставим х = 2 и вычислим стандартное отклонение :

s2 = 2.6 = (f1(x1 - x)2 + f2(x2 - x)2 + ... + fn(xn - x)2)/ (f1 + f2 + ... + fn) = Sfi(xi - x)2 / N =

= (232 + 922 + 812 + 1012 + 622 + 232 + 142) / (38 + y) = 1360/(38 + y)

2.6(38 + у) = 130 у = 12.

Ответ. х = 2, у = 12.

2.Средний вес игроков футбольной команды равен 85 кг, а стандартное отклонение равно 7 кг. В команду хотят добавить еще двух игроков. Каким должен быть вес каждого из двух новых игроков, чтобы средний вес и стандартное отклонение в обновленной команде(включая двух новых игроков) оказались равными этим параметрам в исходной команде?

Решение. Согласно изложенному выше, для того, чтобы добавление двух игроков не повлияло на средний вес, необходимо выполнение условия : средний вес двух этих игроков должен равняться исходному среднему весу команды, т.е. 85 кг. А это значит, что сумма их весов равна 852 = 170. И если вес одного из них равен у, то вес его товарища 170 - у. Согласно второй формулы стандартного отклонения мы можем записать , что до включения двух игроков

s = ((Sxi2)/N - 852) = 7 Sxi2 = (49 + 852)N .

Сумма квадратов весов после включения двух новых игроков будет

Sxi2 + у2 + (170 - у)2 = (49 + 852)N + 2у2 - 1702 + 340у.

 

 

Ученик, для которого выражение Sxi2 выглядит сложновато, может вместо него написать x12 + x22 + ... + xn2 .

И стандартное отклонение после добавления двух игроков должно остаться также равным 7, поэтому : (((49 + 852)N + 2у2 - 1702 + 340у)/(N+2) - 852) = 7.

После возведения во вторую степень и умножения обеих частей уравнения на N+2 получим: 49N + 7225N + 2y2 + 1702 - 340y - 7225N - 72252 = 49N + 98 .

Все члены с N сокращаются и мы получаем :

2y2 - 340y + 14352 = 0 y2 - 170y + 7176 = 0 y = (170 14)/2 , y1 = 92, y2 = 78 .

Т.е. вес одного из добавленных игроков равен 92 кг, а вес второго - 78 кг.

Посмотрим, как можно получить это с помощью первой формулы стандартного отклонения. Запишем формулы стандартного отклонения для исходной команды и для ее нового состояния в предположении, что число ее игроков сначала равнялось N. Стандартное отклонение исходной команды:

s = ((x1 - 85)2 + ... + (xn - 85)2)/N) = 7 (x1 - 85)2 + ... + (xn - 85)2 = 72N (I)

Стандартное отклонение для обновленной команды с N+2 игроками :

s = ((x1 - 85)2 + ... + (xn - 85)2 + (y - 85)2 + (170 - y - 85)2)/(N + 2)) = 7

Подставим сюда соотношение (I) и получим:

s = (72N + (y - 85)2 + (85 - y)2)/(N + 2)) = 7 72N + (y - 85)2 + (85 - y)2 = 72(N+2).

(y - 85)2 = (85 - y)2, поскольку выражения в скобках получаются одно из другого умножением на -1. Раскроем скобки и получим: 72N + 2(y - 85)2 = 72N + 272 2(y - 85)2 = 272 (y - 85)2 = 72 y - 85 = 7 y1 = 92, y2 = 78 170-y = 78 или 92.

Вес одного из игроков 92 кг, а второго 78 кг. Если выполнить это вычисление в общей форме для двух игроков, добавляемых в команду с сохранением средего х и стандартного отклонения s, получим, что измеряемые значения для двоих равны х s.

Упражнения повторения: 7-8.

 

1.6. Вычисление статистических параметров(мер) с помощью калькулятора

Большинство научных калькуляторов позволяют прямо вычислять среднее значение и стандартное отклонение. У разных калькуляторов способы функционирования различны, их надо прочесть в прилагаемых к ним руководствах. В качестве примера рассмотрим здесь работу с тремя распространенными калькуляторами.

Калькулятор Casio FX-82

Одиночные данные. Включи калькулятор и нажми INV SD. (Чтобы приступить к новой системе данных без выключения прибора необходимо нажать INV SAC. Это стоит сделать и следом за включением прибора.) Введи с помощью цифровых клавиш твои данные. После ввода каждого из них нажимай на клавишу М+. (В действительности, работая с SD, эта клавиша называется Х, согласно обозначению ниже этой клавиши). Если введено ошибочное данное, можно отменить его вводом такого числа еще раз и нажатием на INV M+ . По завершении ввода всех данных можно получить среднее значение х (нажатием клавиши х) и стандартное отклонение s - нажатием клавиши σn (обратим внимание на то, что стандартное отклонение получается с помощью σn, и на то, что нельзя пользоваться клавишей σn-1). Можно также пользоваться кнопками Sх и Sх2 для проверки наших результатов в таблице. Число данных можно получить нажатием клавиши n.

Таблица частот. Процесс работы аналогничен, но вместо ввода одиночного данного вводят измеренную переменную xi, нажимают на клавишу умножения x, вводят частоту f i, затем нажимают на клавишу М+. Следует помнить, что сперва вводят измеренную переменную xi и лишь затем(после нажатия на кнопку умножения x) вводят частоту переменной f i. В этом случае нажатие в конце на кнопку Sх даст нам значение Sfixi. Нажатие на клавишу Sх2 даст нам Sfixi2 , а нажатие на кнопку n выдаст Sfi .

Калькуляторы Casio FX-250С, FX-82B, FX-82C

Перевод калькулятора в состояние статистических вычислений осуществляется с помощью кнопки mode. Например, в калькуляторе FX-250С нажатие на кнопку mode сопровождается нажатием клавиши точка ., приводящей к состоянию статистических вычислений. Подтверждением того факта, что калькулятор находится в этом состояниии, служит появление на дисплее букв SD. Для выхода из этого состояния надо нажать на mode 0. Кнопка М+ на этом калькуляторе называется DATA. Для получения ответов необходимо нажать INV перед нажатием соответствующей кнопки. Напомним, что кнопка, приводящая к выводу стандартного отклонения, есть sn, а не sn-1.

Калькулятор Sharp El-506Р

Нажатие на клавиши F s set приводит калькулятор к состоянию статистических вычислений. На дисплее появляются буквы SD. Ввод данных выполняется с помощью кнопки M+ data. Ошибочное число можно отменить повторным его вводом и нажатием на F M+. Группы данных вводят таким же образом, как и на калькуляторе Casio. Стандартное отклонение выдает кнопка s. Величины х и n получают без нажатия на кнопку F (подобной кнопке INV). Величины Sх , Sх2 и s получаем после нажатия кнопки F.

Упражнения повторения: 9, 10-16.

 

1.7. Разбиение на группы данных

Существуют случаи, в которых число различных значений измеряемой переменной очень велико, и неудобно заниматься всеми этими значениями. Часто в таких случаях осуществляется группирование различных значений измеряемой переменной. Т.е. близкие значения измеряемой переменной объединяются в одну группу. Таким образом сокращается число переменных, с которыми мы работаем. Например, на экзамене по психометрии задавали 200 вопросов. Экзамен держали 1000 учеников. Наислабейший ученик верно ответил на 10 вопросов, а самый блестящий - на 195 вопросов. Если мы захотим разобраться в этих данных согласно точному число верных ответов, интервал которых равен 186, нам потребуется работать с вычислениями в 186 колонках. Это неудобно, и ясно, что мы предпочтем разделить данные на группы вроде 10-19 верных ответов, 20-29 верных ответов и т.д. Разбиение на эти группы приведет к небольшой ошибке относительно истинных значений среднего значения и стандартного отклонения. Но мы готовы принять эти ошибки, чтобы облегчить вычисления. Важным моментом разбиения является строгое определение непересекающихся интервалов, чтобы было ясно, к какому из них принадлежит значение xi. Поэтому запрещено определять интервалы так 10-20, 20-30, 30-40 и т.д, надо их записывать так 10-19, 20-29 ....

Пример. Выпуск общеобразовательной школы состоит из 200 учеников, все они допущены к экзамену по математике. Экзамен содержит 100 вопросов. Результаты экзамена суммированы в таблице:

Число верных ответов xi

31-40 41-50 51-60 61-70 71-80 81-90 91-100

Частота fi

15 23 52 46 28 32 4

В этом случае мы сможем найти среднее, медиану и стандартное отклонение, если подставим вместо каждого интервала значений xi среднее арифметическое границ этого интервала измеряемой переменной. Т.е. вместо 31-40 верных ответов запишем xi = 35.5 ((31+40)/2 = 35.5).

xi

35.5 45.5 55.5 65.5 75.5 85.5 95.5

 

fi

15 23 52 46 28 32 4

Sfi = 200

fixi

532.5 1046.5 2866 3013 2114 2736 382

Sfixi = 12710

fI

0.075 0.115 0.26 0.23 0.14 0.16 0.02

х = Sfixi/Sfi = 63.55

(Sf)i

0.075 0.19 0.45 0.68 0.82 0.98 1.00

 

(xi - x)

-28.5 -18.05 -8.05 1.95 11.95 21.95 31.95

 

fi(xi - x)2

11802 7493 3370 175 3998 15418 4083

Sfi(xi - x)2 = 46340

fixi2

18904 47616 160173 197352 159607 233928 36481

Sfixi2 = 854061

s = (854061/200 - 4038.6) = 15.22 или s = (46340/200) = 15.22

В случае таблицы с группами мы вычисляли среднее значение и стандартное отклонение по таблице с серединами интервалов. Если же нужно выполнить вычисление медианы, то здесь получаем медиану, равную 65.5. Но медиану не вычисляют таким образом. Медиана находится в группе 61-70, которую мы нашли, но не обязательно расположена в ее центре. Для вычисления медианы воспользуемся предположением, что числа в пределах каждой группы рассеяны на одинаковом расстоянии одно от другого. В действительности это не выполняется обязательно, но вместе с тем такое предположение достаточно близко к фактическому положению. Есть у нас 200 объектов, а потому медиана должна быть объектом номер 100(200/2=100). Более точно было бы выбрать объект номер 100.5, поскольку 100(200) - число четное. Но мы пренебрежем на первом этапе объяснения этой точностью. Группа 61-70 начинается 91 объектом, поэтому объект номер 100 имеет десятый номер внутри группы. Всего в группе в соответствии с таблицей частот имеется 46 элементов. Поэтому необходимо взять для определения медианы пропорциональную долю (10/46) от ширины интервала. Иными словами значение медианы равно нижнему значению интервала плюс 10/46 от ширины интервала(10). Нижнее значение в группе равно 60.5(а не 61), а верхнее равно 70.5(а не 70). Это - действительные(истинные) границы группы, а не те, которые номинально записаны. Поэтому ширина группы есть 70.5 - 60.5 = 10. Действительные границы вытекают из того факта, что действительные числа должны включать весь интервал. Нам даны только целые числа, поэтому действительные значения находятся посередине между верхней границей одной группы и нижней грраницей следующей группы. Итак, значение моды есть 60.5 + (10/46)10 = 62.67. Можно уточнить результат и взять элемент номер 100.5(10.5 - в группе): Медиана = 60.5 + (10.5/46)10 = 62.78.

В общей форме при наличии N объектов медианой будет элемент номер (N+1)/2. Если модальный элемент находится в группе номер k, то число объектов в предшествующих группах будет f1 + f2 + ... + fk-1 + 0.5 (0.5 следует из того, что интервал всегда начинается между двух элементов). Поэтому медиана это элемент номер [N/2 - (f1 + f2 + ... + fk-1)] в группе номер k. Если обозначить действительное нижнее значение k-той группы через lk, а действительное верхнее значение k-той группы через uk, то медиану можно получить с помощью формулы:

Медиана = lk + (uk - lk)/fk[N/2 - (f1 + f2 + ... + fk-1)]

Напомним, что fk это число элементов в k-той группе, uk и lk - действительные границы этой группы(верхняя и нижняя соответственно). N есть общее число элементов, N = Sfi. Этой формулы нет на багрутном листе, и поэтому предпочтительней не пользоваться ею, а вычислять моду так, как мы продемонстрировали выше. Продемонстрируем такое вычисление в дополнительных примерах.

1. Распределение числа верных ответов учеников 6 класса на экзамене дается следующей таблицей частот:

Число верных ответов

8-12 13-17 18-22 23-27 28-32

Число учеников

4 13 16 15 3

Вычисли среднее значение, стандартное отклонение и медиану.

Решение. Дополним таблицу частот соответствующими вычислениями. Для вычисления х и s воспользуемся значениями середин каждой группы. А относительно медианы будем пользоваться этими значениями для определения группы, в которой она находится, но не для вычисления медианы. Вычисления детализированы далее.

S

xi

fi

fixi

xi - x

(xi - x)2

fi(xi - x)2

(Sf)i

10 15 20 25 30

4 13 16 15 3

40 195 320 375 90

-10 -5 0 5 10

100 25 0 25 100

400 325 0 375 300

4 17 33 48 51

 

51

1020

х = Sfixi/Sfi = 1020/51 = 20

 

1400 s = (Sfi(xi - x)2/Sfi) = (1400/51) = 5.239

Общее число учеников Sfi равно 51. Из строки накопленной частоты (Sf)i видим, что медиана находится в третьей группе(18-22), поскольку в ней накопленная частота превысила 51/2. У нас 51 ученик и медиана относится к ученику номер (51+1)/2 = 26. Этот ученик находится в третьей группе. Сама группа начинается с объекта(ученика) номер 17.5, значит ученик номер 26 в своей группе имет номер 26-17.5 = 8.5. А всего в обсуждаемой группе 16 учеников, поэтому необходимо взять долю 8.5/16 от ширины третьей группы. Значения в третьей группе начинаются с 17.5 и завершаются на 22.5. (Пробел между второй и третьей группами делим пополам. Поэтому вторая группа завершается на 17.5, а третья начинается с 17.5. Аналогично третья группа завершается на 22.5, и с этого значения начинается третья группа. Ширина третьей группы равна 22.5 - 17.5 = 5. От этой ширины мы должы взять долю 8.5/16, как видели выше(ученик номер 8.5 из 16 учеников группы). Для нахождения медианы указанную часть необходимо добавить к нижнему значению группы.

медиана = нижнее_значение_группы + 8.5/16ширина_группы = 17.5 +8.5/165 = 20.156

Отсюда медиана равна 20.156.

2. Распределение возраста студентов, получивших степень инженера в университете Бен-Гуриона за 1980-1981 годы, дает следующая таблица частот:

Возраст выпускника

до 20 21-22 22-23 24-25 26-27 старше 27

Число выпускников

3 100 80 200 120 88

Найди средний возраст выпускника и его медианный возраст.

Решение. Поскольку у нас нет точных данных о возрасте всех выпускников(для возраста моложе 20 лет и старше 27 данных нет), то нет смысла в среднем возрасте. Чтобы вычислить медиану, добавим строку накопленной частоты. Напомним, что указанные значения получаются посредством последовательного сложения значений частоты(числа выпускников).

Накопленная частота(Sf)i

3 103 183 383 503 591

Общим количество выпускников дает заключительное число в строке накопленной частоты. Т.е. всего выпускников 591, поэтому значение медианы есть возраст выпускника номер (591+1)/2=296, если упорядочить выпускников в порядке(возрастания или убывания) их возрастов. Третья группа завершается выпускником номер 183.5, поэтому медианой является возраст выпускника номер 296-183.5=112.5 в четвертой группе. Четвертую группу составляют 200 выпускников, поэтому нужно взять 112.5/200 от ширины этой группы и добавить к начальному значению возраста в ней. Начальный возраст в группе равен 23.5, а конечный - 25.5. Отсюда ширина группы равна 25.5-23.5 = 2 года. Поэтому медиану можно получить из выражения:

медиана = 23.5 + 112.5/2002 = 24.625

Ответ. Медианный возраст есть 24.625 лет

3. В резервистском подразделении взвесили каждого солдата и свели результаты в следующую таблицу часот:

Вес содат в кг

61-65 66-70 71-75 76-80 81-85 86-90 90-95

Число солдат

2 5 18 32 48 28 17

Найди медианный вес солдата этой части.

Решение. Вычислим соответствующую строку накопленной частоты.

Накопленная частота(Sf)i

2 7 25 57 105 133 150

Эта строка получена последовательным сложением значений частоты(число солдат). Последнее число в строке накопленной частоты показывает, что всего в части 150 солдат, поэтому значением медианы является вес солдата номер (150+1)/2= 75.5. Из данных строки накопленной частоты следует, что вес этого солдата находится в пятой группе(четвертая группа завершается весом солдата номер 57.5, а пятая продолжается до солдата номер 105.5). Т.к. четвертая группа завершается солдатом номер 57.5, солдат номер 75.5 находится на 75.5-57.7=18 месте в пятой группе, состоящей из 48 солдат. Т.е. необходимо добавить 18/48 от ширины пятой группы к ее начальному значению. Начальное значение группы есть 80.5, конечное - 85.5, поэтому ширина группы равна 85.5-80.5=5 кг. Отсюда значение медианы:

медиана = начальное_значение_группы_5 + частичная_добавка_от_ширины_группы =

= 80.5 + 18/485 = 82.375 кг.

Ответ. Медианный вес содлата военного подразделения равен 82.375 кг.

4. Найди медиану роста детей многоквартирного дома:

Рост детей

120-129 130-139 140-149 150-159 160-169 170-179 180-189 190-199

Число детей

3 5 11 7 6 3 2 1

Решение. Рассмотрим дополнительную строку накопленной частоты, полученную

 

последовательным сложением значений частоты

Накопленная

частота(Sf)i

3 8 19 26 32 35 37 38

Общее число детей в доме равно 38(последнее число в строке накопленной частоты), и поэтому медианным является ребенок номер (38+1)/2 = 19.5. Поскольку третья группа завершается как раз на ребенке номер 19.5 и на этом же ребенке начинается четвертая группа, то медиана находится точно между указанными группами. Следовательно, рост искомого ребенка есть значение между двумя этими группами, т.е. медиана равна 149.5.

Упражнения повторения: 17-26, 27-42.

 

1.8. Графическое описание частот

До сих пор мы обслуживали разного рода частоты измеряемой переменной с помощью таблицы. Для наглядности можно использовать графическое описание данных из таблицы частот.

Столбчатые диаграммы

Такими диаграммами пользуются, когда имеет место дискретная(не непрерывная) переменная - количественная или качественная. Примеры: число детей в семье, число экзаменационных вопросов, цвет брошюры.

Пример. Для проверки качества коробок со спичками, содержащих каждая по 50 штук, проверили число бракованных спичек в каждой коробке. Выборка состояла из 100 коробков, получили следующие результаты:

Число бракованных спичек xi

0 1 2 3 4 5 6

Число коробок fi

6 10 20 30 18 12 4

Мы не хотим описывать эти данные подобно описаниям функций, когда любому xi соответствует некое fi , поскольку любые значения xi не существуют. Вместе с тем нам нужно описать эти данные в системе координат, подобной системе (х, у).

(Рис. 1.1) (Рис. 1.2. -число коробков fi -число бракованных спичек хi)

В такой системе координат мы можем наносить точки подобно тому, как мы наносили пары (х, у). Из каждой данной точки следует опустить перпендикуляр на ось х. Получаемая таким образом диаграмма именуется столбчатой (палочной). Чтобы не перепутать ось у(fi) с одним из перпендикуляров, ось эта не наносится, мы изображаем ее отдельно от чертежа слева.

Гистограмма - диаграмма прямоугольников

Когда таблица частот описывает не единичное значение измеряемой переменной, а соответствует интервалу ее значений, изобразим над xi вместо палки прямоугольник, ширина которого будет равна ширине интервала xi , а высота будет равна fi . Полученный график называется гистограммой или диаграммой прямоугольников.

Пример. В общеобразовательной средней школе взвесили 165 учеников, завершающих в данном году 9 класс. Результаты сведены в следующую таблицу:

Вес в кг, xi

40-44 45-49 50-54 55-59 60-64 65-69 70-74

Число учеников, fi

15 25 40 35 25 20 5

Обратим внимание на то, что в противоположность предыдущей задаче и примеру из 1.7 относительно объединения(числа верных ответов), где xi может быть только целым числом, здесь вес учеников не обязан измеряться целым числом килограмм. Когда мы записываем интервалы с помощью целых чисел и один из них завершается на 44 кг, а следующий начинается с 45 кг, то как-будто любое промежуточное значение, скажем 44.3 кг, не принадлежит ни одной из групп. В действительности, когда мы пишем интервалы в такой форме, то подразумеваем, что значения округлены и 44.3 кг относится к значению 44 кг.

Остается, однако, вопрос, к какому значению округляется 44.5 кг. Обычно 44.5 кг округляется до 45 кг, а 44.4999 все еще засчитывается как 44 кг.Поэтому, когда будем рисовать прямоугольник, соответствующий интервалу 40-44 кг, раздвинем его от 39.5 кг и до 44.4999 кг. Границы 40-44 называют написанными границами, а границы 39.5-44.4999 называют истинными(действительными) границами. Обратим внимание на то, что центры групп(арифметическое среднее граничных значений) для написанных границ и для истинных границ совпадают. Вместе с тем ширина группы(разница верхней и нижней границ) отличается для написанных границ(в нашем примере ширина группы равна 4(???)) и для истинных(в примере это 4.999 или в действительности 5).(Рис. 1.3)

Площадь прямоугольника каждой группы пропорциональна ее частоте. Если записать вместо частот относительные частоты, то сумма площадей всех прямоугольников окажется равной 1. Если же выразить относительные частоты в процентах, то сумма площадей прямоугольников будет 100.

Если имеет место большое число групп, то получается много прямоугольников. Если провести линию, соединяющую центры верхних сторон прямоугольников, получим кривую - функцию, которая описывает частоту в зависимости от значения измеряемой переменной. Такая функция называется функцией частоты или функцией распределения.

(Рис. 1.4 измеряемая переменная хi -частота измеряемая переменная хi)

Упражнения повторения: 43-44.

 

Глава 1. Статистика (упражнения повторения и ответы)

1. Найди среднее значение следующих чисел: 1). 20, 17, 13, 11, 9, 7, 8, 3, 2.

2). 5, 8, 6, 19, 11, 9, 5. 3). 10, 12, 6, 4, 8, 11, 9, 4. 4). 27, 18, 13, 9, 5, 8, 4.

5). 102, 96, 57, 33, 18, 12. 6). 18, 28, 83, 27, 91, 15, 12, 18.

[ 1). 10. 2). 9. 3). 8. 4). 12. 5). 53. 6). 36.5. ]

2. 1). Абраам и Яаков - братья. В семье Авраама 8 человек и их средний вес 70 кг. В семье Яакова 6 человек и их средний вес 63 кг. Чему равен средний вес обеих семей братьев?

2). В средней городской школе есть два одинадцатых класса. В первом классе 30 учеников, их средний вес 62 кг. Во первом классе 40 учеников, их средний вес 65 кг. Чему равен средний вес обоих классов вместе?

3). В классе 30 учеников. 13 из их числа мальчишки, чей средний вес 67 кг. Средний вес девочек 55 кг. Чему равен средний вес всех учеников класса?

4). В классе 35 учеников. Средний вес 20 девочек класса 52 кг. Средний вес всех учеников класса 60 кг. Чему равен средний вес мальчишек класса?

5). В одной группе из 10 человек средний вес равен 80 кг. К первой группе подключили вторую из 15 человек. Средний вес у двух групп вместе 77 кг. Найди средний вес членов второй группы.

6). Средний вес родительской пары 83 кг. Средний вес всех членов семьи(два родителя и трое детей) равен 65 кг. Каков средний вес детей.

7). В классе 21 ученик. На одном из экзаменов все ученики получили отметки либо 7, либо 10. Средняя оценка была 8. Сколько учеников получили 10?

8). Все условия из вопроса 7, только средняя оценка была 9.

9). В классе 35 учеников. На одном экзамене оценки были только 6, 8 и 9. Число учеников, получивших 8, вдвое больше числа учеников, оценка которых 9. Средняя оценка для всего класса равна 7. Сколько учеников получили 9?

10). На экзамене по математике отсутствовали 5 из 30 учеников класса. Средняя оценка экзаменовавшихся учеников была 78. Пятеро пропустивших экзаменовались позднее. И их средняя оценка оказалась равной 78. Какова средняя оценнка всех учеников класса?

11). Средний вес 30 учеников класса равен 65 кг. В параллельном классе 40 учеников. Из этого класса перевели в первый 5 учеников. Средний вес учеников первого класса после перевода не изменился, а вот во втором упал на 2 кг. Каково исходный средний вес учеников второго класса?

12). Средняя оценка 30 учеников группы a равна 82. В группе b 35 учеников. В группу a перевели из группы b семь самых лучших учеников. Вследствие перевода средняя оценка учеников группы a не изменилась, а вот средняя отметка группы b упала на 4 единицы. Какой была исходная средняя оценка учеников группы b и какой она стала после перевода?

[ 1).67 кг. 2).63.71 кг. 3).60.2 кг. 4).702/3 кг. 5).75 кг. 6).53 кг. 7).7 учеников. 8).14 учеников. 9).5 учеников. 10).78. 11).79. 12).66, 62.]

3. Ниже даны несколько таблиц частот(1 - 5). Вычисли моду для каждой таблицы.

1.

xi - измеряемая переменная

f i - частота

8 9 10 11 12

6 7 11 8 5

2.

xi - измеряемая переменная

f i - частота

7 8 10 12 14 15

7 20 13 14 13 12

3.

xi - измеряемая переменная

f i - частота

5 6 7 8 9 10

1 10 1 9 8 8

4.

xi - измеряемая переменная

f i - частота

22 23 24 25 26 27 28

5 2 4 9 5 6 2

5.

xi - измеряемая переменная

f i - частота

9 10 11 13 14 15 16 17

2 3 4 5 3 4 2 2

[ 1).10. 2).8. 3).6. 4).25. 5).13.]

4. Вычисли медиану для пяти таблиц частоты из задачи 3.

[ 1).10. 2).10. 3).8. 4).25. 5).13.]

5.Вычисли средние и среднеквадратические значения для таблиц частоты из задачи 3.

[

 

1).

2).

3).

4).

5).

x

10

11

8

25

13

s

1.257

2.819

1.560

1.775

2.400

]

6. Найди среднее, медиану, моду и стандартное отклонение следующих систем данных. a).5, 8, 10, 12, 15. b).2, 4, 7,11,14, 16, 18. c).1, 2, 7, 7, 18, 19. d).2, 3, 5, 8, 10, 12. e).-12, -2, 1, 4, 6, 6, 6, 7. f).12, 14, 16, 22, 26, 28, 30, 30. g).-2, 0, 3, 3, 3, 6, 7, 12. h).2, 3, 4, 5, 6, 7, 18, 19. i). 2, 3, 5, 6, 31, 50, 70. j).2, 5, 9, 8, 11, 17, 13, 17, 21, 27.

k).

xi

fi

10 12 15 18 22 24

14 18 22 28 10 8

l).

xi

fi

0 4 7 11 15 18 20

8 17 28 32 16 10 9

m).

xi

fi

4 7 9 11 15 18 21

25 32 20 16 18 10 19

n).

xi

fi

3 5 7 8 10 12

25 30 30 40 20 10

o).

xi

fi

50 54 59 65 72 85 96

4 7 10 12 11 9 8

[

 

x - среднее x1/2 - медиана s - стандартное отклонение мода

a).

10 10 3.41 -

b).

10.29 11 5.67 -

c).

9 7 7.09 7

d).

6.67 6.5 3.64 -

e).

2 5 6.02 6

f).

22.25 24 6.89 30

g).

4 3 4.06 3

h).

8 5.5 6.24 -

i).

23.86 6 25.22 -

j).

12 12 5.76 17