Содержание
Существуют стандартные критерии определения выбросов в выборке при заданном уровне значимости/доверия. Примерами таких критериев служат: критерий Шовене, тест Граббса, критерий Пирса, Q-тест Диксона. Упомянутые критерии (за исключением критерия Граббса) выстраивают выборку по возрастанию и проверяют крайние значения (min, max элемент выборки) на выброс, подключается таблица критических значений.
Значения в таблицах зависят от количества элементов в выборке и уровня доверия/значимости. Критерии позволяют определить точно один выброс, в случае, когда их много, критерии могут не работать.
Критерий Граббса позволяет находить несколько выбросов (1, 2 ,3 можно расширить до n), но основное предположение этого критерия, это нормальное распределение данных, что очень сильно ограничивает возможность применения данного критерия к автоматической обработки данных.
Описание подхода
1. Выстраиваем все элементы выборки по возрастанию (от меньшего к большему):
В случае многомерной выборки для сравнения элементов предлагается рассматривать евклидову метрику.
2. Определение максимально возможный процент выбросов в выборке (указывается экспертом, например 5%)
Здесь определяется верхняя граница количества выбросов. Это не значит, что число выбросов будет составлять строго 5% от выборки, это число будет меньше либо равно 5%. Этот параметр обозначим за g.
3. Строим ряд разностей
таким образом получим n-1 положительных элементов в последовательности (последовательность не обязательно возрастающая):
4. Находим максимальную разность
В последовательности разностей находим максимальную разность:
5. Проверка, попадает ли выброс в заданную в п.2. область
В п.4. получили некоторый индекс i' , который является максимальным в последовательности разностей. Если этот индекс и
в то же время, то в выборке нет выбросов, прекращаем проверку.
В противном случае, элемент с индексом i' подозрителен на выброс.
Если индекс попал в интервал это значит, что максимальная разность достигнута в середине выборки, где предположили, что выбросов нет, задав параметр g .
6. Вырезаем подвыборку из начального набора данных
Здесь имеем два случая:
7. Среднее значение разностей
Находим среднее значение выборки разностей (п.3.) с учетом набора индексов (п.6.):
– число элементов в вырезанной подвыборке.
8. Среднеквадратическое отклонение
Рассчитываем характеристику разброса элементов:
9. Считаем статистику Граббса
Используем формулу Граббса для расчета значения статистики:
10. Задаем уровень значимости
– величина вероятности ошибки ( обычно 1%, 5%, 10%).
11. Использование таблицы критических значений, сравнение величины статистики из п.9. с критическим значением
По значению уровня значимости и числу элементов в подвыборке n' находим критическое значение в таблице Граббса, обозначим его за
Сравниваем полученное значение полученное в п.9. Возможны два случая:
– исследуемое значение не является выбросом и в выборке нет начальном наборе данных нет выбросов вообще.
– исследуемое значение является выбросом.
Если оно находится во второй половине выборки (п.1.), то все значения идущие после i ' являются выбросами, если оно находится в первой половине выборки (п.1.), то все значения идущие до i' являются выбросами.
12. Если в п.11. был обнаружен выброс, то из начальной выборки убираем выбросы и повторяем весь алгоритм с первого пункта (п.1.)
Если вы уже используете сервис КОРУС | Управление запасами, но у вас остались вопросы по настройке интерфейса и отчетов, напишите нам на wms@korusconsuting.ru.
Вы можете ознакомиться с функциональностью сервиса и оценить его эффективность на примере собственных данных.
Запросите бесплатный тестовый доступ к сервису и начните оптимизацию запасов прямо сейчас!
Задайте вопрос эксперту на нашем сайте или по телефону: +7 (495) 877-48-85.
Этот критерий применяется для нормально распределенных результатов измерений. Задавшись уровнем значимости б, по таблице 5.1 с учетом числа измерений "n" находят tr.
Табличное значение этого коэффициента (tr) сравнивают с вычисленными значениями " t ", (для сомнительных результатов измерений "xi"), которые определяют по формуле:
среднее арифметическое результатов измерений и оценка среднего квадратического отклонения результата измерений.
Если окажется, что t tr считают, что результат измерений "xi" содержит грубую погрешность, его исключают из ряда измерений и не обрабатывают.
Используя вышеприведенную методику по выявлению грубых погрешностей, допустим, что результаты измерений подчинены нормальному закону распределения и определим, имеются ли промахи в ряду измерений линейного размера L элемента конструкции строящегося здания, приведенные в таблице 2.1. Для этого, применяя выражения для вычисления среднего арифметического результатов измерений и оценки среднего квадратического отклонения у вида (5.2), а также уже рассчитанные в разделе 4 данной работы эти параметры, запишем:.
Рассчитаем значение критерия Граббса для сомнительного результата измерений Xi, которым является максимальное значение результатов измерений 26 м (см. 27-й результат измерений в таблице 2.1) по формуле:
Для нахождения табличного значения критерия Граббса (tr), вначале зададимся значением доверительной вероятности Рдов =0,999 и переведём его в проценты, так как в таблице №1 значение уровня значимости б =1 — Рдов задано именно в %. Тогда значению Рдов =0,999 соответствует её процентное значение Рдов =99,9%, следовательно, б =1 — Рдов=100% — 99,9%=0,1%.
Войдя в таблицу при б =0,1% и при числе наблюдений n = 30, найдём табличное значение критерия Граббса "tr" равным 3,672. Таким образом, получено неравенство вида: t
Критерий Граббса — статистический тест, используемый для определения выбросов в одномерном наборе данных, подчиняющихся нормальному закону распределения. Был предложен в 1950 году Франком Граббсом [1] .
Содержание
Определение [ править | править код ]
Критерий Граббса основан на предположении о нормальном распределении. Таким образом, перед расчётом критерия Граббса необходимо проверить данные на нормальное распределение [2] .
Критерий Граббса определяет один выброс за одну итерацию. Этот выброс исключается из набора данных и тест повторяется до тех пор, пока не будут обнаружены все выбросы. Тем не менее, множественные итерации изменяют вероятность определения и критерий не следует применять при 6 или менее значениях, так как в такой ситуации часто большинство точек оказываются идентифицированы как выбросы.
Критерий Граббса определён для гипотез:
H: В наборе данных нет выбросов Ha: В наборе данных присутствует как минимум один выброс
Критерий Граббса рассчитывается как:
G = max i = 1 , … , N | Y i − Y ¯ | s <displaystyle G=<frac <displaystyle max _leftvert Y_-<ar
ightvert >>>
где Y ¯ <displaystyle <overline and s <displaystyle s>
означают выборочное среднее и среднеквадратичное отклонение соответственно. Значение критерия Граббса показывает максимальное абсолютное отклонение от выборочного среднего в единицах среднеквадратичного отклонения.
Этот способ расчёта относится к двусторонней версии теста. Критерий Граббса также может быть определён как односторонний тест. Для определения того, является ли минимальное значение выбросом, рассчитывается критерий:
G = Y ¯ − Y min s <displaystyle G=<frac <<ar >>
где Ymin означает минимальное значение. Для определения того, является ли максимальное значение выбросом, рассчитывается критерий:
G = Y max − Y ¯ s <displaystyle G=<frac -<ar >>
где Ymax означает максимальное значение.
Для двустороннего теста (англ.) русск. гипотеза об отсутствии вылетом отклоняется с уровнем значимости α, если:
<frac <sqrt <frac <sqrt
где tα/(2N),N−2 означает максимальное критическое значение (англ.) русск. распределения Стьюдента с N − 2 степенями свободы и уровнем значимости α/(2N). Для одностороннего расчёта,α/(2N) следует заменить на α/N.
Сопутствующие методики [ править | править код ]
Некоторые статистические графики (англ.) русск. могут и должны использоваться для определения выбросов. Простой график выполняемой последовательности (англ.) русск. , диаграмма размаха или гистограмма отображают очевидные выбросы. График нормального распределения (англ.) русск. также может быть полезен.