Выбраковка экстремального члена ряда критерий граббса смирнова

Существуют стандартные критерии определения выбросов в выборке при заданном уровне значимости/доверия. Примерами таких критериев служат: критерий Шовене, тест Граббса, критерий Пирса, Q-тест Диксона. Упомянутые критерии (за исключением критерия Граббса) выстраивают выборку по возрастанию и проверяют крайние значения (min, max элемент выборки) на выброс, подключается таблица критических значений.

Значения в таблицах зависят от количества элементов в выборке и уровня доверия/значимости. Критерии позволяют определить точно один выброс, в случае, когда их много, критерии могут не работать.

Критерий Граббса позволяет находить несколько выбросов (1, 2 ,3 можно расширить до n), но основное предположение этого критерия, это нормальное распределение данных, что очень сильно ограничивает возможность применения данного критерия к автоматической обработки данных.

Описание подхода

1. Выстраиваем все элементы выборки по возрастанию (от меньшего к большему):

В случае многомерной выборки для сравнения элементов предлагается рассматривать евклидову метрику.

2. Определение максимально возможный процент выбросов в выборке (указывается экспертом, например 5%)

Здесь определяется верхняя граница количества выбросов. Это не значит, что число выбросов будет составлять строго 5% от выборки, это число будет меньше либо равно 5%. Этот параметр обозначим за g.

3. Строим ряд разностей


таким образом получим n-1 положительных элементов в последовательности (последовательность не обязательно возрастающая):

4. Находим максимальную разность

В последовательности разностей находим максимальную разность:

5. Проверка, попадает ли выброс в заданную в п.2. область

В п.4. получили некоторый индекс i’ , который является максимальным в последовательности разностей. Если этот индекс и в то же время, то в выборке нет выбросов, прекращаем проверку.

В противном случае, элемент с индексом i’ подозрителен на выброс.

Если индекс попал в интервал это значит, что максимальная разность достигнута в середине выборки, где предположили, что выбросов нет, задав параметр g .

6. Вырезаем подвыборку из начального набора данных

Здесь имеем два случая:

7. Среднее значение разностей

Находим среднее значение выборки разностей (п.3.) с учетом набора индексов (п.6.):

– число элементов в вырезанной подвыборке.

8. Среднеквадратическое отклонение

Рассчитываем характеристику разброса элементов:

9. Считаем статистику Граббса

Используем формулу Граббса для расчета значения статистики:

10. Задаем уровень значимости

– величина вероятности ошибки ( обычно 1%, 5%, 10%).

11. Использование таблицы критических значений, сравнение величины статистики из п.9. с критическим значением

По значению уровня значимости и числу элементов в подвыборке n’ находим критическое значение в таблице Граббса, обозначим его за

Сравниваем полученное значение полученное в п.9. Возможны два случая:

– исследуемое значение не является выбросом и в выборке нет начальном наборе данных нет выбросов вообще.

– исследуемое значение является выбросом.

Если оно находится во второй половине выборки (п.1.), то все значения идущие после i ‘ являются выбросами, если оно находится в первой половине выборки (п.1.), то все значения идущие до i’ являются выбросами.

12. Если в п.11. был обнаружен выброс, то из начальной выборки убираем выбросы и повторяем весь алгоритм с первого пункта (п.1.)

Если вы уже используете сервис КОРУС | Управление запасами, но у вас остались вопросы по настройке интерфейса и отчетов, напишите нам на wms@korusconsuting.ru.

Вы можете ознакомиться с функциональностью сервиса и оценить его эффективность на примере собственных данных.

Запросите бесплатный тестовый доступ к сервису и начните оптимизацию запасов прямо сейчас!

Задайте вопрос эксперту на нашем сайте или по телефону: +7 (495) 877-48-85.

Этот критерий применяется для нормально распределенных результатов измерений. Задавшись уровнем значимости б, по таблице 5.1 с учетом числа измерений "n" находят tr.

Табличное значение этого коэффициента (tr) сравнивают с вычисленными значениями " t ", (для сомнительных результатов измерений "xi"), которые определяют по формуле:

среднее арифметическое результатов измерений и оценка среднего квадратического отклонения результата измерений.

Если окажется, что t tr считают, что результат измерений "xi" содержит грубую погрешность, его исключают из ряда измерений и не обрабатывают.

Используя вышеприведенную методику по выявлению грубых погрешностей, допустим, что результаты измерений подчинены нормальному закону распределения и определим, имеются ли промахи в ряду измерений линейного размера L элемента конструкции строящегося здания, приведенные в таблице 2.1. Для этого, применяя выражения для вычисления среднего арифметического результатов измерений и оценки среднего квадратического отклонения у вида (5.2), а также уже рассчитанные в разделе 4 данной работы эти параметры, запишем:.

Рассчитаем значение критерия Граббса для сомнительного результата измерений Xi, которым является максимальное значение результатов измерений 26 м (см. 27-й результат измерений в таблице 2.1) по формуле:

Для нахождения табличного значения критерия Граббса (tr), вначале зададимся значением доверительной вероятности Рдов =0,999 и переведём его в проценты, так как в таблице №1 значение уровня значимости б =1 — Рдов задано именно в %. Тогда значению Рдов =0,999 соответствует её процентное значение Рдов =99,9%, следовательно, б =1 — Рдов=100% — 99,9%=0,1%.

Войдя в таблицу при б =0,1% и при числе наблюдений n = 30, найдём табличное значение критерия Граббса "tr" равным 3,672. Таким образом, получено неравенство вида: t

Критерий Граббса — статистический тест, используемый для определения выбросов в одномерном наборе данных, подчиняющихся нормальному закону распределения. Был предложен в 1950 году Франком Граббсом [1] .

Содержание

Определение [ править | править код ]

Критерий Граббса основан на предположении о нормальном распределении. Таким образом, перед расчётом критерия Граббса необходимо проверить данные на нормальное распределение [2] .

Критерий Граббса определяет один выброс за одну итерацию. Этот выброс исключается из набора данных и тест повторяется до тех пор, пока не будут обнаружены все выбросы. Тем не менее, множественные итерации изменяют вероятность определения и критерий не следует применять при 6 или менее значениях, так как в такой ситуации часто большинство точек оказываются идентифицированы как выбросы.

Критерий Граббса определён для гипотез:

H0: В наборе данных нет выбросов Ha: В наборе данных присутствует как минимум один выброс

Критерий Граббса рассчитывается как:

G = max i = 1 , … , N | Y i − Y ¯ | s <displaystyle G=<frac <displaystyle max _leftvert Y_-<ar >
ightvert >>>

где Y ¯ <displaystyle <overline >> and s <displaystyle s> означают выборочное среднее и среднеквадратичное отклонение соответственно. Значение критерия Граббса показывает максимальное абсолютное отклонение от выборочного среднего в единицах среднеквадратичного отклонения.

Этот способ расчёта относится к двусторонней версии теста. Критерий Граббса также может быть определён как односторонний тест. Для определения того, является ли минимальное значение выбросом, рассчитывается критерий:

G = Y ¯ − Y min s <displaystyle G=<frac <<ar >-Y_<min >>>>

где Ymin означает минимальное значение. Для определения того, является ли максимальное значение выбросом, рассчитывается критерий:

G = Y max − Y ¯ s <displaystyle G=<frac -<ar >>>>

где Ymax означает максимальное значение.

Для двустороннего теста (англ.) русск. гипотеза об отсутствии вылетом отклоняется с уровнем значимости α, если:

<frac <sqrt >><sqrt <frac ^<2>>^<2>>>>>"> G > N − 1 N t α / ( 2 N ) , N − 2 2 N − 2 + t α / ( 2 N ) , N − 2 2 <displaystyle G><frac <sqrt >><sqrt <frac ^<2>>^<2>>>>> <frac <sqrt >><sqrt <frac ^<2>>^<2>>>>>"/>

где tα/(2N),N−2 означает максимальное критическое значение (англ.) русск. распределения Стьюдента с N − 2 степенями свободы и уровнем значимости α/(2N). Для одностороннего расчёта,α/(2N) следует заменить на α/N.

Сопутствующие методики [ править | править код ]

Некоторые статистические графики (англ.) русск. могут и должны использоваться для определения выбросов. Простой график выполняемой последовательности (англ.) русск. , диаграмма размаха или гистограмма отображают очевидные выбросы. График нормального распределения (англ.) русск. также может быть полезен.

Оцените статью
Добавить комментарий