Однофакторный дисперсионный анализ непараметрический тест

Однофакторный дисперсионный анализ: введение

Рассмотренный ранее t-критерий Стьюдента (равно как и его непараметрические аналоги) предназначен для сравнения исключительно двух совокупностей. Однако часто он неверно используется для попарного сравнения большего количества групп (рис. 1), что вызывает т.н. эффект множественных сравнений (англ. multiple comparisons; Гланц 1999, с. 101-104). Об этом эффекте и о том, как с ним бороться, мы поговорим позднее. В этом же сообщении я опишу принципы однофакторного дисперсионного анализа, как раз предназначенного для одновременного сравнения средних значений двух и более групп. Принципы дисперсионного анализа (англ. analysis of variance, ANOVA) были разработаны в 1920-х гг. сэром Рональдом Эйлмером Фишером (англ. Ronald Aylmer Fisher) — «гением, едва не в одиночку заложившим основы современной статистики» (Hald 1998).

Рис. 1. Пример неверного использования критерия Стьюдента для попарных сравнений трех групп — А, B и C.

Может возникнуть вопрос: почему метод, используемый для сравнения средних значений, называется дисперсионным анализом? Все дело в том, что при установлении разницы между средними значениями мы в действительности сравниваем дисперсии анализируемых совокупностей. Однако обо всем по порядку.

Постановка задачи

Переменная trt представляет собой фактор с тремя уровнями. Для более наглядного сравнения экспериментальных условий в последующем, сделаем уровень » water » базовым (англ. reference), т.е. уровнем, с которым R будет сравнивать все остальные уровни. Это можно сделать при помощи функции relevel() :

Чтобы лучше понять свойства имеющихся данных, визуализируем их при помощи одномерной диаграммы рассеяния (рис. 2):

Рис. 2. Результаты измерений веса растений томатов, выращенных при разных экспериментальных условиях.

Из рис. 2 видно, что измеренные значения веса растений достаточно близки для всех трех экспериментальных условий, хотя и есть некоторая тенденция к снижению веса в группе » Nutrient+24D «. Это визуальное впечатление подтверждается также соответствующими групповыми средними:

Подлежащую проверке нулевую гипотезу можно сформулировать так: исследованные условия выращивания растений не оказывают никакого влияния на вес последних. Другими словами, нулевая гипотеза утверждает, что наблюдаемые различия между групповыми средними несущественны и вызваны влиянием случайных факторов (т.е. в действительности все полученные измерения веса растений происходят из одной нормально распределенной генеральной совокупности):

\[H_0: \mu_1 = \mu_2 = \mu_3\]

Подчеркнем еще раз, что рассматриваемый пример соответствует случаю однофакторного дисперсионного анализа: изучается действие одного фактора — условий выращивания (с тремя уровнями — Water , Nutrient и Nutrient+24D ) на интересующую нас переменную-отклик — вес растений.

К сожалению, исследователь почти никогда не имеет возможности изучить всю генеральную совокупность. Как же нам тогда узнать, верна ли приведенная выше нулевая гипотеза, располагая только выборочными данными? Мы можем сформулировать этот вопрос иначе: какова вероятность получить наблюдаемые различия между групповыми средними, извлекая случайные выборки из одной нормально распределенной генеральной совокупности? Для ответа на этот вопрос на нам потребуется статистический критерий, который количественно характеризовал бы величину различий между сравниваемыми группами.

Перед тем, как сконструировать такой критерий, зададимся еще одним вопросом: что заставляет нас, взглянув на несколько графически представленных выборок, думать, что различия между ними неслучайны?

На рис. 3 к исходным данным добавлена еще одна группа — из точек, отражающих соответствующие выборочные средние ( Means ) .

Рис. 3. То же, что рис. 2, но с добавлением точек, отражающих средние значения в каждой экспериментальной группе (Means).

Теперь (исключительно с целью продемонстрировать принцип!) несколько изменим исходные данные (рис. 3):

Рис. 4. То же, что рис. 3, но с искусственно измененными исходными данными.

Следовательно, для оценки различий между группами следует каким-то образом сравнить разброс групповых средних с разбросом значений внутри групп. Это ключевая идея дисперсионного анализа, уяснив которую, вы не будете испытывать трудности с пониманием излагаемого ниже материала.

Две оценки дисперсии при дисперсионном анализе

Итак, чем больше разброс выборочных средних и чем меньше разброс значений внутри групп, тем меньше вероятность того, что наши группы являются случайными выборками из одной совокупности. Дисперсию генеральной совокупности можно оценить двумя способами. С одной стороны, оценкой дисперсии генеральной совокупностью будет дисперсия, вычисленная для каждой группы. Такая оценка не будет зависеть от различий групповых средних. С другой стороны, при верной нулевой гипотезе (см. выше) разброс групповых средних тоже позволит оценить дисперсию генеральной совокупности. Очевидно, что такая оценка уже будет зависеть от различий между группами.

Если экспериментальные группы — это случайные выборки из одной и той же нормально распределенной генеральной совокупности, то оба способа оценки генеральной дисперсии должны давать примерно одинаковые результаты. Соответственно, если эти оценки действительно оказываются близки, то мы не можем отвергнуть нулевую гипотезу. И наоборот: если разница между этими оценками оказывается существенной, мы можем принять альтернативную гипотезу: маловероятно, что мы получили бы наблюдаемые различия между группами, если бы они были просто случайными выборками из одной нормально распределенной генеральной совокупности.

Перейдем к вычислениям. Пусть \(x_\) обозначает наблюдение \(j\) в группе \(i\) (например, \(x_<13>\) будет третьим наблюдением из первой группы), \(\bar\) — среднее значение в группе \(i\), a \(\bar\) — общее среднее значение (рассчитанное по всем имеющимся наблюдениям). Тогда каждое наблюдение мы можем разложить на следующие составляющие:

где \((\bar— \bar)\) — отклонения групповых средних от общего среднего значения, а \((x_ — \bar)\) — отклонения отдельных наблюдений от среднего значения группы, к которой они принадлежат.

Тогда разброс наблюдений внутри групп можно рассчитать как

а разброс между группами (разброс групповых средних) как

В приведенных выражениях буквы W и B соответствуют английским словам «within» (внутри) и «between» (между). Нормализовав \(SS_W\) и \(SS_B\) по их соответствующим степеням свободы, получим внутри- и межгрупповую дисперсии, о которых мы говорили выше:

\[MS_W = SS_W/(N — k)\]
\[MS_B = SS_B/(k — 1)\]

В приведенных двух выражениях N — общее число наблюдений, а k — число сравниваемых групп. Аббревиатура MS означает «mean squares» («средние квадраты»; имеются в виду усредненные суммы квадратов отклонений, \(SS_W\) и \(SS_B\)) и часто встречается в результатах дисперсионного анализа, выдаваемых статистическими программами.

Нормализация \(SS_W\) и \(SS_B\) по числу степеней свободы позволяет получить сравнимые величины. Формально внутри- и межгрупповые дисперсии сравниваются при помощи Fкритерия, или критерия Фишера (обратите внимание: в числителе всегда находится межгрупповая дисперсия, \(MS_B\)):

Очевидно, что чем ближе F к 1, тем меньше у нас оснований утверждать, что внутри- и межгрупповая дисперсии различаются. Иными словами, у нас нет оснований отклонить сформулированную выше нулевую гипотезу. Если же F значительно выше 1, нулевую гипотезу можно отклонить. Возникает вопрос: начиная с какой именно величины F нулевую гипотезу можно отвергать?

Критическое значение F-критерия

Критическое значение F-критерия определяется желаемым уровнем значимости и свойствами F-распределения, форма которого полностью задается меж- и внутригрупповым степенями свободы. Так, для нашего примера, межгрупповое число степеней свободы составляет \(df_B = k — 1 = 3 — 1 = 2\), а внутригрупповое — \(df_W = N — k = 18 — 3 = 15\). Внешний вид F-распределения при этих \(df_B\) и \(df_W\) представлен на рис. 5. Вертикальная линия на этом рисунке соответствует 3.682 — критическому значению F при \(\alpha = 0.05\). Если F-значение, рассчитанное по экспериментальным данным, превышает критическое значение, мы можем отклонить нулевую гипотезу об отсутствии эффекта изучаемого фактора.

Выполнение дисперсионного анализа в R

Дисперсионный анализ в R можно выполнить при помощи базовых функций aov() и lm() . В этом сообщении мы рассмотрим только функцию aov() . Для нашего примера получаем:

В приведенных результатах строка, обозначенная как trt , соответствует источнику дисперсии в данных, связанному с действием изучаемого экспериментального фактора — условий выращивания растений. Строка, обозначенная как Residuals , характеризует внутригрупповую дисперсию (ее еще называют шумовой или остаточной дисперсией — в том смысле, что она не может быть объяснена влиянием экспериментального фактора). Столбец Sum Sq содержит \(SS_B\) и \(SS_W\), а столбец Mean Sq — меж- и внутригрупповую дисперсии, \(MS_B\) и \(MS_W\). В столбце F value представлено рассчитанное по имеющимся данным значение F-критерия. Наконец, в столбце Pr(>F) представлена вероятность получить F-значение, равное или превышающее то значение, которое мы в действительности рассчитали по имеющимся выборочным данным (при условии, что нулевая гипотеза верна). Как видим, эта вероятность достаточно высока. Во всяком случае, она превышает 5%-ный уровень значимости, в связи с чем мы заключаем, что нулевая гипотеза верна. Таким образом, с достаточно высокой степенью уверенности мы можем утверждать, что экспериментальные условия не оказали существенного влияния на вес растений.

Читайте также:  Предрасполагающие факторы гестационного пиелонефрита тест

Как следует из названия, данное сообщение является введением в дисперсионный анализ и его выполнение при помощи R. В последующих сообщениях будут обсуждены такие вопросы, как условия применимости параметрического дисперсионного анализа и способы их проверки, множественные сравнения групп, расчет необходимого числа наблюдений для дисперсионного анализа, и др. «Не переключайтесь!»

Источник

Однофакторный дисперсионный анализ

Цель работы: познакомится с таким статистическим методом, как дисперсионный анализ.

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации .

При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.

При проведении исследования рынка часто встает вопрос о сопоставимости результатов. Например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы, на сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация признака. За меру вариации может быть принята дисперсия. Дисперсия σ2 – мера вариации, определяемая как средняя из отклонений признака, возведенных в квадрат.

На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей. Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.

Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы .

1.1 Основные понятия дисперсионного анализа

В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудование или материал) называется уровнем фактора или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами — моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика. В настоящее время общая теория дисперсионного анализа разработана для моделей I.

В зависимости от количества факторов, определяющих вариацию результативного признака, дисперсионный анализ подразделяют на однофакторный и многофакторный.

Основными схемами организации исходных данных с двумя и более факторами являются:

— перекрестная классификация, характерная для моделей I, в которых каждый уровень одного фактора сочетается при планировании эксперимента с каждой градацией другого фактора;

— иерархическая (гнездовая) классификация, характерная для модели II, в которой каждому случайному, наудачу выбранному значению одного фактора соответствует свое подмножество значений второго фактора.

Если одновременно исследуется зависимость отклика от качественных и количественных факторов, т.е. факторов смешанной природы, то используется ковариационный анализ /3/.

При обработке данных эксперимента наиболее разработанными и поэтому распространенными считаются две модели. Их различие обусловлено спецификой планирования самого эксперимента. В модели дисперсионного анализа с фиксированными эффектами исследователь намеренно устанавливает строго определенные уровни изучаемого фактора. Термин «фиксированный эффект» в данном контексте имеет тот смысл, что самим исследователем фиксируется количество уровней фактора и различия между ними. При повторении эксперимента он или другой исследователь выберет те же самые уровни фактора. В модели со случайными эффектами уровни значения фактора выбираются исследователем случайно из широкого диапазона значений фактора, и при повторных экспериментах, естественно, этот диапазон будет другим.

Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.

При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный (Гауссовский) закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой. Поэтому все наблюдения отклика принадлежат сдвиговому семейству нормальных распределений.

Говорят, что техника дисперсионного анализа является «робастной». Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но несмотря на это, технику можно использовать.

При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.

В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия σ2. Она является мерой вариации частных средних по группам вокруг общей средней и определяется по формуле:

где k — число групп;

nj — число единиц в j-ой группе;

— частная средняя по j-ой группе;

— общая средняя по совокупности единиц.

Вариацию, обусловленную влиянием прочих факторов, характеризует в каждой группе внутригрупповая дисперсия σj2.

.

Между общей дисперсией σ02, внутригрупповой дисперсией σ2 и межгрупповой дисперсией существует соотношение:

σ02 = + σ2.

Внутригрупповая дисперсия объясняет влияние неучтенных при группировке факторов, а межгрупповая дисперсия объясняет влияние факторов группировки на среднее значение по группе /2/.

Однофакторный дисперсионный анализ

Однофакторная дисперсионная модель имеет вид:

где х ij – значение исследуемой переменой, полученной на i-м уровне фактора (i=1,2. т) c j-м порядковым номером (j=1,2. n);

F i – эффект, обусловленный влиянием i-го уровня фактора;

ε ij – случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменой внутри отдельного уровня.

Основные предпосылки дисперсионного анализа:

— математическое ожидание возмущения ε ij равно нулю для любых i, т.е.

— возмущения ε ij взаимно независимы;

— дисперсия переменной x ij (или возмущения ε ij) постоянна для

— переменная x ij (или возмущение ε ij) имеет нормальный закон

распределения N(0;σ 2 ).

Влияние уровней фактора может быть как фиксированным или систематическим (модель I), так и случайным (модель II).

Пусть, например, необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора — партии изделий. Если включить в исследование все партии сырья, то влияние уровня такого фактора систематическое (модель I), а полученные выводы применимы только к тем отдельным партиям, которые привлекались при исследовании. Если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II). В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие – фиксированные.

Пусть имеется m партий изделий. Из каждой партии отобрано соответственно n 1, n 2, …, n m изделий (для простоты полагается, что n 1=n 2=. =n m=n). Значения показателя качества этих изделий представлены в матрице наблюдений:

Источник

Однофакторный дисперсионный анализ

1. Решение задач однофакторного дисперсионного анализа

Дисперсионный анализ позволяет исследовать различие между группами данных, определять, носят ли эти расхождения случайный характер или вызваны конкретными обстоятельствами. Например, если продажи фирмы в одном из регионов снизились, то с помощью дисперсионного анализа можно выяснить, случайно ли снижение оборотов в этом регионе по сравнению с остальными, и при необходимости произвести организационные изменения. При выполнении эксперимента в разных условиях дисперсионный анализ поможет определить, насколько влияют внешние факторы на измерения, или отклонения носят случайный характер. Если на производстве для улучшения качества продукции изменяют режим процессов, то дисперсионный анализ позволяет оценить результаты воздействия данного фактора.

На этом примере мы покажем, как выполнять дисперсионный анализ экспериментальных данных.

Задание 1. Имеются четыре партии сырья для текстильной промышленности. Из каждой партии отобрано по пять образцов и проведены испытания на определение величины разрывной нагрузки. Результаты испытаний приведены в таблице.

Необходимо выяснить, существенно ли влияние различных партий сырья на величину разрывной нагрузки. Данная задача сводится к проверке выдвигаемой нулевой гипотезы Н0:. а1= а2=…= аm о равенстве математических ожиданий, осуществляемой в дисперсионном анализе. т. е. нужно проверить гипотезу о том, что на уровне значимости α = 0,05 (с надежностью 0,95) различие между партиями сырья не оказывает существенное влияние на величину разрывной нагрузки.

Читайте также:  Тест пцр кировский район санкт петербург

Порядок работы

>• Введите данные для дисперсионного анализа, изображенные на рис.1.

>•Преобразуйте данные в числовой формат. Для этого выберите команду меню Формат • Ячейки. На экранe появится окно формат ячеек (Рис.2). Выберите Числовой формат и введенные данные преобразуются к виду, показанному на рис. 3

>•Выберите команду меню Сервис • Анализ данных (Тоо1s * Dаtа Апа1уsis). На экранe появится окно Анализ данных (Dаtа Апа1уsis) (Рис.4).

>• Щелкните мышью на строке Однофакторный дисперсионный анализ (Аnоvа: Single Factor) в списке Инструменты анализа (Апа1уsis Тоо1s).

>• Нажмите кнопку ОК, чтобы закрыть окно Анализ данных (Dаtа Апа1уsis). На экране появится окно Однофакторный дисперсионный анализ для проведения дисперсионного анализа данных (Рис.5).

>• Щелкните мышью в поле Входной интервал. Выделите диапазон ячеек E3::I6, данные в котором нужно проанализировать. В поле Входной интервал (Input Range) группы элементов управления Входные данные, (Input) появится указанный диапазон.

>• Установите флажок Метки в первой строке (Labels in Firts Rom) в группе элементов управления Входные данные (Input), если первый столбец выделенного диапазона данных содержит названия строк.

>• В поле ввода Альфа (А1рhа) группы элементов управления Входные данные по умолчанию отображается величина 0,05, которая связана с вероятностью возникновения ошибки в дисперсионном анализе.

>• Если в группе элементов управления Параметры вывода (Input options) не установлен переключатель Новый рабочий лист (Nev Worksheet Ply), то установите его, чтобы результаты дисперсионного анализа были помещены на новый рабочий лист

> Нажмите кнопку ОК, чтобы закрыть окно Однофакторный дисперсионный анализ (Аnоvа: Single Factor). На новом рабочем листе появятся результаты дисперсионного анализа (Рис. 6).

В диапазоне ячеек А4:Е6 расположены результаты описательной статистики. В строке 4 находятся названия параметров, в строках статистические значения, вычисленные по партиям.

В столбце Счет (Соunt) расположены количества измерений, в столбце Сумма — суммы величин, в столбце Среднее (Аvегаgе) — средние арифметические значения, в столбце Дисперсия (Vаriаnсе) — дисперсии.

Полученные результаты показывают, что наибольшая средняя разрывная нагрузка в партии №3, а наибольшая дисперсия разрывной нагрузки –в партии №1.

В диапазоне ячеек А11:G16 отображается информация, касающаяся существенности расхождений между группами данных. В строке 12 находятся названия параметров дисперсионного анализа, в строке 13 — результаты межгрупповой обработки, в строке 14 — результаты внутригрупповой обработки, а в строке 16 – суммы значений упоминавшихся двух строк.

В столбце SS (Qi) расположены величины варьирования, т. е. суммы квадратов по всем отклонениям. Варьирование, как и дисперсия, характеризует разброс данных. По таблице можно заметить, что межгрупповой разброс разрывной нагрузки существенно выше величины внутригруппового варьирования.

В столбце df (k) находятся значения чисел степеней свободы. Данные числа указывают на количество независимых отклонений, по которым будет вычисляться дисперсия. Например, межгрупповое число степеней свободы равняется разности количеству групп данных и единицы. Чем больше число степеней свободы, тем выше надежность дисперсионных параметров. Данные степеней свобод в таблице показывают, что для внутригрупповых результатов надежность выше, чем для межгрупповых параметров.

В столбце MS (S2) расположены величины дисперсии, которые определяются отношением варьирования и числа степеней свобод. Дисперсия характеризует степень разброса данных, но в отличие от величины варьирования, не имеет прямой тенденции увеличиваться с ростом числа степеней свобод. Из таблицы видно, что межгрупповая дисперсия значительно больше внутригрупповой дисперсии.

В столбце F находится, значение F-статистики, вычисляемое отношением межгрупповой и внутригрупповой дисперсий.

В столбце F критическое (F crit) расположено F-критическое значение, рассчитываемое по числу степеней свободы и величине Альфа (А1рhа). F-статистика и F-критическое значение используют критерий ФишераСнедекора.

Если F-статистика больше F-критического значения, то можно утверждать, что различия между группами данных носят неслучайный характер. т. е. на уровне значимости α = 0,05 (с надежностью 0,95) нулевая гипотеза отвергается и принимается альтернативная: различие между партиями сырья оказывает существенное влияние на величину разрывной нагрузки.

В столбце Р-значение (Р-value) находится значение вероятности того, что расхождение между группами случайно. Так как в таблице данная вероятность очень мала, то отклонение между группами носит неслучайный характер.

2. Решение задач двухфакторного дисперсионного анализ без повторений

Microsoft Excel располагает функцией Anova: Двухфакторный дисперсионный анализ без повторений (Two-Factor Without Replication), которая используется для выявления факта влияния контролируемых факторов А и В на результативный признак на основе выборочных данных, причем каждому уровню факторов А и В соответствует только одна выборка. Для вызова этой функции необходимо на панели меню выбрать команду Сервис –Анализ данных. На экране раскроется окно Анализ данных, в котором следует выбрать значение Двухфакторный дисперсионный анализ без повторений и щелкнуть на кнопке ОК. В результате на экране раскроется диалоговое окно, показанное на рисунке 1.

В диалоговом окне задаются следующие параметры.

1. В поле Input Range вводится ссылка на диапазон ячеек, содержащий анализируемые данные.

3. В поле Aльфа вводится принятый уровень значимости α, соответствующий вероятности возникновения ошибки первого рода.

4. Переключатель в группе Output options может быть установлен в одно из трех положений: Output Range (Выходной диапазон), New Worksheet Ply (Новый рабочий лист) или New Workbook (Новая рабочая книга).

Рассмотрим использование функции Двухфакторный дисперсионный анализ без повторений (Anova: Two-Factor Without Replication) на следующем примере.

На рисунке. 2 представлены данные об урожайности (ц/га) четырех сортов пшеницы (четыре уровня фактора А), достигнутой при использовании пяти типов удобрений (пять уровней фактора В). Данные получены на 20 участках одинакового размера и аналогичного почвенного покрова. Необходимо определить, влияет ли сорт и тип удобрения на урожайность пшеницы.

Результаты двухфакторного дисперсионного анализа с помощью функции Двухфакторный дисперсионный анализ без повторений представлены на рисунке 3.

Как видно по результатам, расчетное значение величины F-статистики для фактора А (тип удобрения) FА=l,67, а критическая область образуется правосторонним интервалом (3,49; +∞). Так как FА=l,67 не попадает в критическую область, гипотезу НА: a1 = a2 + ••• = ak принимаем, т. е. считаем, что в этом эксперименте тип удобрения не оказал влияния на урожайность.

Так как FВ =2,03 не попадает в критическую область, гипотезу НВ: b1 = b2 = . = bm

также принимаем, т. е. считаем, что в данном эксперименте сорт пшеницы также не оказал влияния на урожайность.

2. Двухфакторный дисперсионный анализ c повторениями

Microsoft Excel располагает функцией Anova: Двухфакторный дисперсионный анализ с повторениями (Two-Factor With Replication), которая также используется для выявления факта влияния контролируемых факторов А и В на результативный признак на основе выборочных данных, однако каждому уровню одного из факторов А (или В) соответствует более одной выборки данных.

Рассмотрим использование функции Двухфакторный дисперсионный анализ с повторениями на следующем примере.

Пример 2. В таблице. 6 приведены суточные привесы (г) собранных для исследования 18 поросят в зависимости от метода удержания поросят (фактор А) и качества их кормления (фактор В).

Необходимо оценить существенность (достоверность) влияния каждого фактора и их взаимодействия на суточный привес поросят.

Для вызова необходимой функции необходимо на панели меню выбрать команду Сервис –Анализ данных (Tools-Data Analysis). На экране раскроется диалоговое окно Анализ данных (Data Analysis), в котором следует выбрать значение Anova: Двухфакторный дисперсионный анализ с повторениями (Two-Factor With Replication)и щелкнуть на кнопке ОК. В результате на экране раскроется диалоговое окно Двухфакторный дисперсионный анализ с повторениями, показанное на рисунке 5.

В этом диалоговом окне задаются следующие параметры.

1. В поле Входной интервал (Input Range) вводится ссылка на диапазон ячеек, содержащий анализируемые данные. Необходимо выделить ячейки от G 4 до I 13.

2. В поле Число строк для выборки (Rows per sample) определяется число выборок, которое приходится на каждый уровень одного из факторов. Каждый уровень фактора должен содержать одно и то же количество выборок (строк таблицы). В нашем случае число строк равно трем.

3. В поле Альфа (Alpha) вводится принятое значение уровня значимости α, которое равно вероятности возникновения ошибки первого рода.

4. Переключатель в группе Output options может быть установлен в одно из трех положений: Output Range (Выходной интервал), New Worksheet Ply (Новый рабочий лист) или New Workbook (Новая рабочая книга).

Результаты двухфакторного дисперсионного анализа с помощью функции Двухфакторный дисперсионный анализ сповторениями представлены на рисунке 6.

Очевидно, данные факторы имеют фиксированные уровни, т. е. мы находимся в рамках модели I. Поэтому для проверки существенности влияния факторов А, В и их взаимодействия АВ необходимо найти отношения

и сравнить их с табличными значениями соответственно :=3,88; =: =4,75; =3,88. Так как и то влияние метода содержания поросят (фактора А) и качества их кормления (фактора В) является существенным. В силу того что взаимодействие указанных факторов незначимо (на 5%-ном уровне).

Читайте также:  При пищевой токсикоинфекции у беременных показано тест

Задание на дом

1. В течение шести лет использовались пять различных технологий по выращиванию сельскохозяйственной культуры. Данные по эксперименту (в ц/га) приведены в таблице:

Необходимо на уровне значимости α = 0,05 установить влияние различных технологий на урожайность культуры.

2. На заводе установлено четыре линии по выпуску облицовочной плитки. С каждой линии случайным образом в течение смены отобрано по 10 плиток и сделаны замеры их толщины (мм). Отклонения от номинального размера приведены в таблице:

Требуется на уровне значимости α = 0,05 установить зависимость выпуска качественных плиток от линии выпуска (фактора А).

3. Имеются следующие данные об урожайности четырех сортов пшеницы на выделенных пяти участках земли (блоках):

Требуется на уровне значимости а = 0,05 установить влияние на урожайность сорта пшеницы (фактора А) и участков земли — блоков (фактора В).

4. На четырех предприятиях В1, В2, В3, В4 проверялись три технологии производства А1, А2, А3 однотипных изделий. Данные о производительности труда в условных единицах приведены в таблице:

Требуется на уровне значимости α = 0,05 установить влияние на производительность труда технологий (фактора А) и предприятий (фактора В).

Источник

9.4.2. Однофакторный непараметрический анализ

методом Краскела–Уоллиса

Пример 9.4. Для выяснения влияния денежного стимулирования на производительность труда шести однородным группам из 5 человек были предложены задания одинаковой трудности. Задания предлагались каждому испытуемому независимо от остальных. Группы отличались величиной денежного вознаграждения за решаемую задачу. Данные (число решаемых задач) приведены в табл. 9.4. Требуется доказать, что производительность труда в каждой группе существенно отличается от остальных. Для доказательства предположения сформулируем гипотезу Н о том, что расхождение наблюдений в каждой группе объясняется только случайными причинами, т.е. величина вознаграждения не влияет на производительность труда.

Таблица 9.4. Исходные данные к примеру 9.4

Запустите пакет STATISTICAи в появившемся окне переключателей модулей (рис.9.1) выберите режимНепараметрическая статистика (Nonparametrics/Distrib). В появившемся окнеНепараметрические статистики (NonparametricsStatistics) (рис.9.23) выберите методANOVA Краскела–Уоллиса (Kruskal–WallisANOVA).

Введите исходные данные в файл аналогично примеру 9.1, при этом файл данных будет содержать три переменные (ГРУППА,НАБЛЮДиЧИСЛ_ЗАД) и 30 наблюдений (5 наблюдений6 уровней) (рис. 9.24). Сохраните данные в файл.

Рис.9.23. Окно непараметрической статистики

Выберите в строке команд Анализ(Analysis) режимПродолжить анализ(ResumeAnalysis). Появится окноДисперсионного анализа Краскела–Уоллиса и медианный тест(рис.9.25), в котором следует задаться независимой переменной (ГРУППА) и зависимой переменной (ЧИСЛ_ЗАД). Нажмите кнопкуОК. Результаты представлены на рис. 9.26 – 9.27.

Рис.9.24. Окно исходных данных

Рис.9.25. Окно задания переменных для анализа

Рис.9.26. Результаты анализа – критерий Краскела–Уоллиса

Рис.9.27. Результаты анализа – критерий χ 2

Критерий Краскела–Уоллиса равен 21,219 при минимальном уровне значимости р = 0,0007. Так как р-уровень близок к нулю, то мы не можем принять гипотезуН. Следовательно, денежное стимулирование влияет на производительность труда.

Задания для самостоятельной работы

Как изменится проверка влияния денежного стимулирования на количество выполненных заданий, если число изменяющихся уровней уменьшить до четырех? Проверьте свое предположение, проведя повторный расчет в системе STATISTICAдля первых 4 уровней. Для этого предварительно из таблицы данных (см. рис. 9.24) удалите наблюдения, соответствующие пятому и шестому уровням.

9.4.3. Двухфакторный дисперсионный анализ

Пример 9.5. Имеем наблюдения – оценки успеваемости студентов за выполнение лабораторных работ, которые проставляются с точностью до одного знака после запятой. Число лабораторных работ (факторА) равно5, число групп (факторВ) – 2, число студентов – 6. Требуется установить, влияет ли сложность лабораторных работ и номер группы на оценки студентов, т.е. одинаковы ли по сложности лабораторные работы и подготовка студентов разных групп. Предположим, что плотность распределения оценок соответствует нормальному закону распределения. Исходные данные приведены в табл.9.5.

Таблица 9.5. Исходные данные к примеру 9.5

Лабораторные работы (уровни фактора А)

Источник

Однофакторный дисперсионный анализ Фишера

Дисперсионный анализ — это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) значений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В качестве меры отклонений берется дисперсия (В)— средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравниваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влияние на результативный признак.

Для того, чтобы вычислить дисперсию значения отклонений каждой варианты (каждого зарегистрированного числового значения признака) от среднего арифметического возводят в квадрат. Тем самым избавляются от отрицательных знаков. Затем эти отклонения (разности) суммируют и делят на число наблюдений, т.е. усредняют отклонения. Таким образом, получают значения дисперсий.

Важным методическим значением для применения дисперсионного анализа является правильное формирование выборки. В зависимости от поставленной цели и задач выборочные группы могут формироваться случайным образом независимо друг от друга (контрольная и экспериментальная группы для изучения некоторого показателя, например, влияние высокого артериального давления на развитие инсульта). Такие выборки называются независимыми.

Нередко результаты воздействия факторов исследуются у одной и той же выборочной группы (например, у одних и тех же пациентов) до и после воздействия (лечение, профилактика, реабилитационные мероприятия), такие выборки называются зависимыми.

Дисперсионный анализ, в котором проверяется влияние одного фактора, называется однофакторным (одномерный анализ). При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (многомерный анализ).

Факторные признаки — это те признаки, которые влияют на изучаемое явление.

Результативные признаки — это те признаки, которые изменяются под влиянием факторных признаков.

Условия применения дисперсионного анализа:

Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).

Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.

Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. — random), т.е. выбранные наугад.

Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

1. Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.

2. Независимость (не связанность) распределения наблюдений в группах.

3. Наличие частоты (повторность) наблюдений.

Сначала формулируется нулевая гипотеза, то есть предполагается, что исследуемые факторы не оказывают никакого влияния на значения результативного признака и полученные различия случайны.

Затем определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой гипотезы.

Если эта вероятность мала, то мы отвергаем нулевую гипотезу и заключаем, что результаты исследования статистически значимы. Это еще не означает, что доказано действие именно изучаемых факторов (это вопрос, прежде всего, планирования исследования), но все же маловероятно, что результат обусловлен случайностью.

При выполнении всех условий применения дисперсионного анализа, разложение общей дисперсии математически выглядит следующим образом:

Doбщ. = Dфакт + D ост.,

Doбщ. — общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового;

Dфакт — факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков — наблюдается межгрупповое разнообразие.

D ост. — остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака — фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов.

Поэтому общая вариация (дисперсия) слагается из вариации, вызванной организованными (заданными) факторами, называемыми факториальной вариацией и неорганизованными факторами, т.е. остаточной вариацией (случайной, неизвестной).

Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares — Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Рассмотрим следующий набор данных:

Источник

Поделиться с друзьями
Наши факторы
Adblock
detector