Методы количественного анализа


К расчету зависимости пол − заказ десерта. Фактические и теоретические частоты



Скачать 302,01 Kb.
страница3/3
Дата19.06.2022
Размер302,01 Kb.
#186314
ТипПрограмма
1   2   3
Связанные:
KKZ MKA Fomina SI DO-308MVA

К расчету зависимости пол − заказ десерта. Фактические и теоретические частоты

Фактические частоты

Заказ десерта

Мужской

Женский

Всего

Да

96

40

136

Нет

224

240

464

Всего

320

280

600

Теоретические частоты

Заказ десерта

Мужской

Женский

Всего

Да

72,53

63,47

136

Нет

247,47

216,53

464

Всего

320

280

600



К расчету зависимости пол − заказ десерта. Значение



f0

fE

f0fE

(f0fE)2



1

96

72,53

23,47

550,68

7,59

2

224

247,47

-23,47

550,68

2,23

3

40

63,47

-23,47

550,68

8,68

4

240

216,53

23,47

550,68

2,54

Сумма





21,04

Получаем


Учитывая количество строк в таблицах сопряженности, равное 2, и количество столбцов, равное 2, получаем количество степеней свободы df = (2 − 1) · (2 − 1) = 1. Принимаем α = 0,05.
Получаем

Гипотеза H0 отвергается. Принимается гипотеза H1: между полом и заказом десерта есть статистически значимая связь.
Задание 4
В рабочей книге PIZZA.XLS содержатся данные о 36 порциях пиццы: стоимость в долларах, количество калорий и количество жира в граммах для трех категорий продуктов: сырной пиццы из пиццерии (тип 1), сырной пиццы из супермаркета (тип 2) и острой пиццы из супермаркета (тип 3).
Используйте инструмент Сводные таблицы и функции вычисления статистических характеристик.
Вычислите распределение частот и процентное распределение для стоимости, калорий и жирности.
Постройте кривую распределения (полигон накопленных процентов) для стоимости, калорий и жирности.
Изучите аналитически и графически взаимосвязь переменных.
Какие выводы можно сделать о стоимости, количестве калорий и жирности каждой из разновидностей пиццы?
Решение
Основные статистические характеристики переменных

Показатель

Цена

Калории

Жир

Объем выборки n

36

36

36

min

0,540

280,00

4,00

max

1,920

412,00

26,00

Размах вариации

1,380

132,00

22,00

k

6

6

6

Δ

0,230

22,00

3,67

Среднее

1,099

351,81

15,61

Дисперсия

0,105

1 241,38

25,85

Среднеквадратическое

0,324

35,23

5,08

Коэффициент вариации

0,295

0,10

0,33

Значения k и Δ в таблице – количество интервалов и длина интервала – будут необходимы для дальнейших расчетов. Число интервалов определяется по формуле Стерджеса: с округлением до ближайшего целого.



k = 1 + log2n

(0)

Ширину каждого интервала берем одинаковой и равной:



(0)

Средние значения показывают, что пицца – довольно жирный и калорийный продукт. Впрочем, для жирности нужно сделать оговорку: у нее достаточно большая дисперсия и коэффициент вариации. Это значит, что в выборку попали и образцы с невысокой жирностью.
Используя формулы (3) и (4) и функции, встроенные в Excel, разобьем массив каждой переменной на интервалы и найдем их частоты.
Основные статистические характеристики переменных

Цена

Относит. частота

Накопл. частота

Калории

Относит. частота

Накопл. частота

Жир

Относит. частота

Накопл. частота

≥0,54

2,78

2,78

≥280

2,78

2,78

≥4

2,78

2,78

≥0,77

8,33

11,11

≥302

8,33

11,11

≥7,67

2,78

5,56

≥1

44,44

55,56

≥324

11,11

22,22

≥11,33

11,11

16,67

≥1,23

8,33

63,89

≥346

25,00

47,22

≥15

33,33

50,00

≥1,46

22,22

86,11

≥368

16,67

63,89

≥18,67

16,67

66,67

≥1,69

5,56

91,67

≥390

19,44

83,33

≥22,33

22,22

88,89

≥1,92

8,33

100,00

≥412

16,67

100,00

≥26

11,11

100,00

Итого

100



100



100


На основе таблицы по каждой переменной построены кривую распределения (полигоны накопленных частот). Они показаны на рисунках


Проверим, есть ли связь между ценой пиццы и видом, к которому она относится (Cheese, Pepperoni или Chain). Так как один из показателей является количественным, а другой – качественным, будем использовать метод сопряженных таблиц, аналогичный примененному в задаче 3.
Выдвигаем гипотезы.
Основная гипотеза Н0: рассматриваемые признаки независимы.
Альтернативная гипотеза Н1: цена и вид зависимы.

Рис. 1 − Цена: относительная и накопленная частота

Рис. 2 − Калорийность: относительная и накопленная частота



Рис. 3 − Жирность: относительная и накопленная частота
Таблица сопряженности с фактическими и теоретическими частотами представлена ниже
К расчету зависимости вид − цена. Фактические и теоретические частоты

Фактические частоты


0,54 − 0,77

0,77 − 1,00

1,00 − 1,23

1,23 − 1,46

1,46 − 1,69

1,69 − 1,92

Итого

Cheese

2

10

2

2


1

17

Pepperoni

2

6


2

2


12

Chain










5


2

7

Итого

4

16

2

9

2

3

36

Теоретические частоты


0,54 − 0,77

0,77 − 1,00

1,00 − 1,23

1,23 − 1,46

1,46 − 1,69

1,69 − 1,92

Итого

Cheese

1,89

7,56

0,94

4,25

0,94

1,42

17

Pepperoni

1,33

5,33

0,67

3,00

0,67

1,00

12

Chain

0,78

3,11

0,39

1,75

0,39

0,58

7

Итого

4

16

2

9

2

3

36

расчет теоретических частот проводился по формуле (1). Расчет значения представлен в табл




К расчету зависимости вид − цена. Значение



f0

fE

f0fE

(f0fE)2



1

2

1,89

0,11

0,01

0,01

2

2

1,33

0,67

0,44

0,33

3

0

0,78

-0,78

0,60

0,78

4

10

7,56

2,44

5,98

0,79

5

6

5,33

0,67

0,44

0,08

6

0

3,11

-3,11

9,68

3,11

7

2

0,94

1,06

1,11

1,18

8

0

0,67

-0,67

0,44

0,67

9

0

0,39

-0,39

0,15

0,39

10

2

4,25

-2,25

5,06

1,19

11

2

3,00

-1,00

1,00

0,33

12

5

1,75

3,25

10,56

6,04

13

0

0,94

-0,94

0,89

0,94

14

2

0,67

1,33

1,78

2,67

15

0

0,39

-0,39

0,15

0,39

16

1

1,42

-0,42

0,17

0,12

17

0

1,00

-1,00

1,00

1,00

18

2

0,58

1,42

2,01

3,44

Сумма





23,46

Получаем


Учитывая количество строк в таблицах сопряженности, равное 3, и количество столбцов, равное 6, получаем количество степеней свободы df = (3 − 1) · (6 − 1) = 10. Принимаем α = 0,05.
Получаем

Гипотеза H0 отвергается. Принимается гипотеза H1: между видом пиццы и ее ценой есть статистически значимая связь.
Анализ таблицы сопряженности позволяет утверждать, что пицца Cheese самая дешовая, Pepperoni несколько дороже и Chain − самая дорогая.
Проверим теперь наличие связи между калорийностью и жирностью. Так как оба эти показателя количественные, будем использовать инструмент «Регрессия» из Анализа данных Excel.
После проведения расчетов был получен результат, изображенный на рис.

Рис. − Жирность: относительная и накопленная частота
В первую очередь обратим внимание на столбец «Коэффициенты», в нем представлены параметры полученного уравнения регрессии: . Их можно интерпретировать следующим образом. Пицца, не содержащая жира, будет иметь калорийность 250,57. Каждый дополнительный грамм жира будет добавлять 6,48 единиц калорийности.
Построенная модель имеет достаточно высокое значение коэффициента детерминации (R-квадрат) − 0,8755. Это значит, что более 87% дисперсии результативного признака объясняется влиянием независимой переменной.
Адекватность модели можно определить по значению критерия Фишера F и его значимости (Значимость F) Так как значение F больше критического, а Значимость F много меньше α = 0,05, модель можно считать адекватной и значимой .
Вывод о статистической значимости коэффициентов уравнения можно сделать на основе сравнения t-статистик (критерий Стьюдента) с табличными и учитывая P-значения, которые так же меньше α = 0,05.
Проведенное исследование позволяет утверждать, что между типом пиццы и ценой, а так же между калорийностью и жирностью существует устойчивая статистически значимая связь.



Скачать 302,01 Kb.

Поделитесь с Вашими друзьями:
1   2   3




База данных защищена авторским правом ©psihdocs.ru 2022
обратиться к администрации

    Главная страница