Формула хи квадрат пирсона

Формула хи квадрат пирсона

Распределение "хи-квадрат" является одним из наиболее широко используемых в статистике для проверки статистических гипотез. На основе распределения "хи-квадрат" построен один из наиболее мощных критериев согласия – критерий "хи-квадрата" Пирсона.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Критерий χ2 ("хи-квадрат") используется для проверки гипотезы различных распределений. В этом заключается его достоинство.

Расчетная формула критерия равна

где m и m’ — соответственно эмпирические и теоретические частоты

n — число степеней свободы.

Для проверки нам необходимо сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные в предположении нормального распределения) частоты.

При полном совпадении эмпирических частот с частотами, вычисленными или ожидаемыми S (Э – Т) = 0 и критерий χ2 тоже будет равен нулю. Если же S ( Э – Т) не равно нулю это укажет на несоответствие вычисленных частот эмпирическим частотам ряда. В таких случаях необходимо оценить значимость критерия χ2, который теоретически может изменяться от нуля до бесконечности. Это производится путем сравнения фактически полученной величины χ2ф с его критическим значением (χ2st).Нулевая гипотеза, т. е. предположение, что расхождение между эмпирическими и теоретическими или ожидаемыми частотами носит случайный характер, опровергается, если χ2ф больше или равно χ2st для принятого уровня значимости (a) и числа степеней свободы (n).

Распределение вероятных значений случайной величины χ2 непрерывно и ассиметрично. Оно зависит от числа степеней свободы (n) и приближается к нормальному распределению по мере увеличения числа наблюдений. Поэтому применение критерия χ2 к оценке дискретных распределений сопряжено с некоторыми погрешностями, которые сказываются на его величине, особенно на малочисленных выборках. Для получения более точных оценок выборка, распределяемая в вариационный ряд, должна иметь не менее 50 вариантов. Правильное применение критерия χ2 требует также, чтобы частоты вариантов в крайних классах не были бы меньше 5; если их меньше 5, то они объединяются с частотами соседних классов, чтобы в сумме составляли величину большую или равную 5. Соответственно объединению частот уменьшается и число классов (N). Число степеней свободы устанавливается по вторичному числу классов с учетом числа ограничений свободы вариации.

Так как точность определения критерия χ2 в значительной степени зависит от точности расчета теоретических частот (Т), для получения разности между эмпирическими и вычисленными частотами следует использовать неокругленные теоретические частоты.

В качестве примера возьмем исследование, опубликованное на сайте, который посвящен применению статистических методов в гуманитарных науках.

Критерий "Хи-квадрат" позволяет сравнивать распределения частот вне зависимости от того, распределены они нормально или нет.

Под частотой понимается количество появлений какого-либо события. Обычно, с частотой появления события имеют дело, когда переменные измерены в шкале наименований и другой их характеристики, кроме частоты подобрать невозможно или проблематично. Другими словами, когда переменная имеет качественные характеристики. Так же многие исследователи склонны переводить баллы теста в уровни (высокий, средний, низкий) и строить таблицы распределений баллов, чтобы узнать количество человек по этим уровням. Чтобы доказать, что в одном из уровней (в одной из категорий) количество человек действительно больше (меньше) так же используется коэффициент Хи-квадрат.

Разберем самый простой пример.

Среди младших подростков был проведён тест для выявления самооценки. Баллы теста были переведены в три уровня: высокий, средний, низкий. Частоты распределились следующим образом:

Высокий (В) 27 чел.

Средний (С) 12 чел.

Низкий (Н) 11 чел.

Очевидно, что детей с высокой самооценкой большинство, однако это нужно доказать статистически. Для этого используем критерий Хи-квадрат.

Наша задача проверить, отличаются ли полученные эмпирические данные от теоретически равновероятных. Для этого необходимо найти теоретические частоты. В нашем случае, теоретические частоты – это равновероятные частоты, которые находятся путём сложения всех частот и деления на количество категорий.

Читайте также:  Стиральная машина ездит по плитке

(В + С + Н)/3 = (27+12+11)/3 = 16,6

Формула для расчета критерия хи-квадрат:

Эмпирич. (Э) Теоретич. (Т) (Э — Т)І / Т
Высокий 27 чел. 16,6 6,41
Средний 12 чел. 16,6 1,31
Низкий 11 чел. 16,6 1,93

Находим сумму последнего столбца:

Теперь нужно найти критическое значение критерия по таблице критических значений (Таблица 1 в приложении). Для этого нам понадобится число степеней свободы (n).

где R – количество строк в таблице, C – количество столбцов.

В нашем случае только один столбец (имеются в виду исходные эмпирические частоты) и три строки (категории), поэтому формула изменяется – исключаем столбцы.

Для вероятности ошибки p≤0,05 и n = 2 критическое значение χ2 = 5,99.

Полученное эмпирическое значение больше критического – различия частот достоверны (χ2= 9,64; p≤0,05).

Как видим, расчет критерия очень прост и не занимает много времени. Практическая ценность критерия хи-квадрат огромна. Этот метод оказывается наиболее ценным при анализе ответов на вопросы анкет.

Разберем более сложный пример.

К примеру, психолог хочет узнать, действительно ли то, что учителя более предвзято относятся к мальчикам, чем к девочкам. Т.е. более склонны хвалить девочек. Для этого психологом были проанализированы характеристики учеников, написанные учителями, на предмет частоты встречаемости трех слов: "активный", "старательный", "дисциплинированный", синонимы слов так же подсчитывались. Данные о частоте встречаемости слов были занесены в таблицу:

"Активный" "Старательный" "Дисциплинированный"
Мальчики
Девочки

Для обработки полученных данных используем критерий хи-квадрат.

Для этого построим таблицу распределения эмпирических частот, т.е. тех частот, которые мы наблюдаем:

"Активный" "Старательный" "Дисциплинированный" Итого:
Мальчики
Девочки
Итого: s=48

Теоретически, мы ожидаем, что частоты распределятся равновероятно, т.е. частота распределится пропорционально между мальчиками и девочками. Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую сумму (s).

"Активный" "Старательный" "Дисциплинированный" Итого:
Мальчики (21 * 16)/48 = 7 (21 * 17)/48 = 7.44 (21 * 15)/48 = 6.56
Девочки (27 * 16)/48 = 9 (27 * 17)/48 = 9.56 (27 * 15)/48 = 8.44
Итого: s=48

Итоговая таблица для вычислений будет выглядеть так:

Категория 1 Категория 2 Эмпирич. (Э) Теоретич. (Т) (Э — Т)І / Т
Мальчики "Активный" 1,28
"Старательный" 7,74 0,8
"Дисциплинированный" 6,56 0,47
Девочки "Активный"
"Старательный" 9,56 0,62
"Дисциплинированный" 8,44 0,04
Сумма: 4,21

n = (R — 1), где R – количество строк в таблице.

В нашем случае хи-квадрат = 4,21; n = 2.

По таблице критических значений критерия находим: при n = 2 и уровне ошибки 0,05 критическое значение χ2 = 5,99.

Полученное значение меньше критического, а значит принимается нулевая гипотеза.

Вывод: учителя не придают значение полу ребенка при написании ему характеристики.

Заключение.

К. Пирсон внёс значительный вклад в развитие математической статистики (большое количество фундаментальных понятий). Основная философская позиция Пирсона формулируется следующим образом: понятия науки — искусственные конструкции, средства описания и упорядочивания чувственного опыта; правила связи их в научные предложения вычленяются грамматикой науки, которая и является, философией науки. Связать же разнородные понятия и явления позволяет универсальная дисциплина — прикладная статистика, хотя и она по Пирсону субъективна.

Многие построения К. Пирсона напрямую связаны или разрабатывались с использованием антропологических материалов. Им разработаны многочисленные способы нумерической классификации и статистические критерии, применяемые во всех областях науки.

Литература.

1. Боголюбов А. Н. Математики. Механики. Биографический справочник. — Киев: Наукова думка, 1983.

2. Колмогоров А. Н., Юшкевич А. П. (ред.). Математика XIX века. — М.: Наука. — Т. I.

3. 3. Боровков А.А. Математическая статистика. М.: Наука, 1994.

4. 8. Феллер В. Введение в теорию вероятностей и ее приложения. — М.: Мир, Т.2, 1984.

5. 9. Харман Г., Современный факторный анализ. — М.: Статистика, 1972.

Читайте также:  Среда разработки html css javascript

Введите фактические численности

Фенотипические классы Ожидаемая доля Численность Отклонение
p-q (d)
d 2 d 2 /q
Фактическая
p
Ожидаемая
q
A- 0.75
aa 0.25
Сумма 1 χ 2 =

Введите фактические численности

Фенотипические классы Ожидаемая доля Численность Отклонение
p-q (d)
d 2 d 2 /q
Фактическая
p
Ожидаемая
q
A-B- 0.5625
A-bb 0.1875
B-aa 0.1875
aabb 0.0625
Сумма 1 χ 2 =

Как бы точно не вычислялись теоретические частоты они, как правило, не совпадают с эмпирическими частотами ряда. Отсюда возникает необходимость сопоставления эмпирических частот с вычисленными, или ожидаемыми, частотами, с тем, чтобы установит достоверность или случайность наблюдаемого между ними расхождения. Нулевая гипотеза сводится к предположению, что несоответствие эмпирических частот частотам, вычисленным по тому или иному закону распределения, — совершенно случайное, т. е. между вычисленными и эмпирическими частотами никакой разницы нет. Для проверки нулевой гипотезы используются особые критерии. Одним из наиболее часто применяемых служит критерий χ 2 , предложенный к. Пирсоном в 1900 г. Этот критерий представляет сумму квадратов отклонений эмпирических частот (p) от частот теоретических или ожидаемых (p’), отнесенную к теоретическим частотам (p’)

Символ χ 2 — не квадрат какого-то числа, он выражает лишь исходную величину, определяемую данной формулой.

Так как отклонения эмпирических частот от ожидаемых или вычесленных возводятся в квадрат, величина критерия χ 2 всегда положительная. Поэтому при определении разности (p – p’) = d знаки можно не учитывать, вычисляя из больших чисел меньшие.

При полном совпадении эмпирических частот с частотами, вычисленными или ожидаемыми S (p – p’) = 0 и критерий χ 2 тоже будет равен нулю. Если же S ( p – p’) не равно нулю это укажет на несоответствие вычисленных частот эмпирическим частотам ряда. в таких случаях необходимо оценить значимость критерия χ 2 который теоретически может изменяться от нуля до бесконечности. Это производится путем сравнения фактически полученной величины χ 2 ф с его критическим значением (χ 2 st).Нулевая гипотеза, т. е. предположение, что расхождение между эмпирическими и теоретическими или ожидаемыми частотами носит случайный характер, опровергается, если χ 2 ф больше или равно χ 2 st для принятого уровня значимости (a) и числа степеней свободы (k).

Распределение вероятных значений случайной величины χ 2 непрерывно и ассиметрично. Оно зависит от числа степеней свободы (k) и приближается к нормальному распределению по мере увеличения числа наблюдений (т). Поэтому применение критерия χ 2 к оценке дискретных распределний сопряжено с некоторыми погрешностями, которые сказываются на его величине, особенно на малочисленных выборках. Для получения более точных оценок выборка, распределяемая в вариационный ряд, должна иметь не мене 50 вариант. Правильное применение критерия χ 2 требует также, чтобы частоты вариант в крайних классах не были бы меньше 5; если их меньше 5, то они объединяются с частотами соседних классов, чтобы в сумме составляли величину большую или равную 5. Соответственно объединению частот уменьшается и число классов (N). Число степеней свободы устанавливается по вторичному числу классов с учетом числа ограничений свободы вариации.

Так как точность определения критерия χ 2 в значительной степени зависит от от точности расчета теоретических частот (p’), для получения разности между эмпирическими и вычисленными частотами p – p’ = d следует использовать неокругленные теоретические частоты (p’).

Министерство образования и науки Российской Федерации

Федеральное агентство по образованию города Иркутска

Байкальский государственный университет экономики и права

Кафедра Информатики и Кибернетики

Распределение "хи-квадрат" и его применение

Колмыкова Анна Андреевна

студентка 2 курса

1. Распределение "хи-квадрат"

2. "Хи-квадрат" в задачах статистического анализа данных

Список используемой литературы

Как подходы, идеи и результаты теории вероятностей используются в нашей жизни?

Базой является вероятностная модель реального явления или процесса, т.е. математическая модель, в которой объективные соотношения выражены в терминах теории вероятностей. Вероятности используются, прежде всего, для описания неопределенностей, которые необходимо учитывать при принятии решений. Имеются в виду, как нежелательные возможности (риски), так и привлекательные ("счастливый случай"). Иногда случайность вносится в ситуацию сознательно, например, при жеребьевке, случайном отборе единиц для контроля, проведении лотерей или опросов потребителей.

Теория вероятностей позволяет по одним вероятностям рассчитать другие, интересующие исследователя.

Вероятностная модель явления или процесса является фундаментом математической статистики. Используются два параллельных ряда понятий – относящиеся к теории (вероятностной модели) и относящиеся к практике (выборке результатов наблюдений). Например, теоретической вероятности соответствует частота, найденная по выборке. Математическому ожиданию (теоретический ряд) соответствует выборочное среднее арифметическое (практический ряд). Как правило, выборочные характеристики являются оценками теоретических. При этом величины, относящиеся к теоретическому ряду, "находятся в головах исследователей", относятся к миру идей (по древнегреческому философу Платону), недоступны для непосредственного измерения. Исследователи располагают лишь выборочными данными, с помощью которых они стараются установить интересующие их свойства теоретической вероятностной модели.

Зачем же нужна вероятностная модель? Дело в том, что только с ее помощью можно перенести свойства, установленные по результатам анализа конкретной выборки, на другие выборки, а также на всю так называемую генеральную совокупность. Термин "генеральная совокупность" используется, когда речь идет о большой, но конечной совокупности изучаемых единиц. Например, о совокупности всех жителей России или совокупности всех потребителей растворимого кофе в Москве. Цель маркетинговых или социологических опросов состоит в том, чтобы утверждения, полученные по выборке из сотен или тысяч человек, перенести на генеральные совокупности в несколько миллионов человек. При контроле качества в роли генеральной совокупности выступает партия продукции.

Чтобы перенести выводы с выборки на более обширную совокупность, необходимы те или иные предположения о связи выборочных характеристик с характеристиками этой более обширной совокупности. Эти предположения основаны на соответствующей вероятностной модели.

Конечно, можно обрабатывать выборочные данные, не используя ту или иную вероятностную модель. Например, можно рассчитывать выборочное среднее арифметическое, подсчитывать частоту выполнения тех или иных условий и т.п. Однако результаты расчетов будут относиться только к конкретной выборке, перенос полученных с их помощью выводов на какую-либо иную совокупность некорректен. Иногда подобную деятельность называют "анализ данных". По сравнению с вероятностно-статистическими методами анализ данных имеет ограниченную познавательную ценность.

Итак, использование вероятностных моделей на основе оценивания и проверки гипотез с помощью выборочных характеристик – вот суть вероятностно-статистических методов принятия решений.

Мы остановимся на распределении ("хи – квадрат"). Впервые это распределение было исследовано астрономом Ф.Хельмертом в 1876 году. В связи с гауссовской теорией ошибок он исследовал суммы квадратов n независимых стандартно нормально распределенных случайных величин. Позднее Карл Пирсон (Karl Pearson) дал имя данной функции распределения "хи – квадрат". И сейчас распределение носит его имя.

Благодаря тесной связи с нормальным распределением, χ2-распределение играет важную роль в теории вероятностей и математической статистике. χ2-распределение, и многие другие распределения, которые определяются посредством χ2-распределения (например — распределение Стьюдента), описывают выборочные распределения различных функций от нормально распределенных результатов наблюдений и используются для построения доверительных интервалов и статистических критериев.

Распределение Пирсона (хи — квадрат) – распределение случайной величиныгде X1, X2,…, Xn — нормальные независимые случайные величины, причем математическое ожидание каждой из них равно нулю, а среднее квадратическое отклонение — единице.

распределена по закону ("хи – квадрат").

Название: Распределение "хи-квадрат" и его применение
Раздел: Рефераты по математике
Тип: контрольная работа Добавлен 03:23:37 28 января 2011 Похожие работы
Просмотров: 28423 Комментариев: 20 Оценило: 7 человек Средний балл: 4.9 Оценка: 5 Скачать
Ссылка на основную публикацию
Файлы mdi чем открыть
Если вы не смогли открыть файл двойным нажатием на него, то вам следует скачать и установить одну из программ представленных...
Украли сумку с документами что делать
В связи с угрозой распространения на территории Российской Федерации коронавирусной инфекции приостановлен личный прием граждан в судах. Смотреть как изолируются...
Ультра исо вам необходимо иметь права администратора
Очень многие пользователи, когда им нужно сделать загрузочную флешку Windows или с дистрибутивом другой операционной системы, прибегают к использованию программы...
Файлы mdx чем открыть
MDX - это формат образов дисков, который был создан разработчиками программы DAEMON Tools. Это формат был создан в результате усовершенствования...
Adblock detector