Что такое интерквартильный размах
Статистика — это грамматика науки о данных. Часть 3
Mar 30, 2019 · 4 min read
Повторение статистики для начала путешествия по науке о данных
Меры расположения
Процентили
Процентили делят упорядоченные данные на сто равных частей. В рассортированных данных процентиль — это точка, показывающая процентное отношение значений в наборе данных, находящихся ниже данной точки.
50-й процентиль — это медиана.
Например, на графике ниже показано развитие ребенка от рождения до 2 лет. Получается, что 98% развития ребенка за первый год жизни составляет в весе меньше 11,5 кг.
Другим примером является ра с пределение доходов в стране. 99-й процентиль — это уровень дохода, при котором 99% населения зарабатывают меньше этого значения и 1% — больше. Так в Великобритании, как показано на графике ниже, 99-й процентиль составляет 75.000 фунтов стерлингов.
Квартили
Квартили — это процентили, которые делят набор данных на четверти. Первый квартиль, Q1, равен 25-ому процентилю, третий квартиль, Q3, равен 75-ому процентилю. Медиана может быть обозначена либо вторым квартилем, Q2, либо 50-ым процентилем.
Интерквартильный размах (IQR)
IQR — число, которое показывает разброс средней половины (т.е. средние 50%) набора данных и помогает определить выбросы. IQR — это разница между Q3 и Q1.
Выбросы — это, проще говоря, те значения данных, которые находятся за пределами следующих интервалов: Q1–1.5 x IQR и Q3 + 1.5 x IQR.
Диаграмма «ящик с усами»
Диаграмма «ящик с усами» показывает:
Ящик с усами имеет горизонтальную и вертикальную оси и прямоугольный ящик.
«Усы» (выделенные фиолетовым цветом) начинаются с концов ящика и заканчиваются на самом минимальном или максимальном значениях данных. Также бывают ящики с усами, у которых есть отмеченные значения выбросов (выделены красным цветом). В таких случаях, усы не достигают минимального и максимального значений.
Ящики с усами на графике нормального распределения Ящики с усами на нормальных распределениях имеют некоторые особенности: Несмотря на то, что первый и третий квартили (Q1 и Q3) имеют такие названия, они, на самом деле, не составляют 25% от числа данных! Они показывают 34,135%. Также второй квартиль (Q2) составляет не 50%, а 68,27%.
Моменты случайной величины
Моменты случайно величины описывают различные аспекты характера и формы нашего распределения.
#1 — первый момент случайной величины — среднее значение данных, которое показывает место распределения.
#2 — второй момент случайной величины — дисперсия, которая показывает разброс распределения. Большие значения имеют больший размах, чем маленькие.
#3 — третий момент случайной величины — коэффициент асимметрии — мера того, насколько неравномерным является распределение. Коэффициент асимметрии положителен, если распределение наклонено влево и левый хвост короче правого. То есть среднее значение находится правее. И наоборот:
#4 — четвертый момент случайной величины — коэффициент эксцесса, который описывает то, насколько толстый хвост и насколько острый пик распределения. Этот коэффициент показывает, насколько вероятно найти точки экстремума в данных. Чем выше значение, тем вероятнее выбросы. Это похоже на разброс (дисперсию), но между ними есть отличия.
Как видно на графике, чем выше значение пики, тем выше коэффициент эксцесса, т.е. у верхней кривой коэффициент эксцесса выше, чем у нижней.
Интерквартильный размах
Feb 24, 2018 · 2 min read
Для того, чтобы посчитать интерквартильный размах выборки, нужно сначала найти ее медиану. Перед поиском медианы выборку следуют упорядочить. Если выборка содержит нечетное количество элементов, то центральный элемент и будет медианой. Если выборка содержит четное количество — медианой будет среднее арифметическое двух центральных элементов.
Разберемся, как найти интерквартильный размах для выборки с четным количеством элементов. Для начала ее нужно упорядочить от меньшего к большему:
Медианой в этой выборке будет среднее арифметическое двух центральных элементов:
После того, как найдена медиана всей выборки, ее нужно разделить на две части — левее медианы и правее, и найти медиану каждой половины:
Меди а на всей выборки — это второй квартиль, медианы левой и правой половин — это, соответственно первый (или нижний) и третий (или верхний) квартили:
Интерквартильный размах — это просто разность между третьим и первым квартилями:
В этом случае интерквартильный размах будет равен 14–3 = 11.
Для выборки с нечетным количеством элементов, размах считается практически так же. Разница состоит в том, что медиана выборки (или второй квартиль) — это центральный элемент, а первый и третий квартили считаются как среднее арифметическое двух центральных элементов подвыборок, лежащих слева и справа от медианы всей выборки (не включая саму медиану):
В этом случае интерквартильный размах будет равен 20–3 = 17.
Кстати, первый, второй и третий квартиль еще называются, соответственно, 25-й, 50-й и 75-й перцентиль. Поэтому, когда вам говорят, что уровень зарплаты для вашего грейда считается как 75-й перцентиль от уровня зарплат по рынку, имеют ввиду именно третий квартиль.
СОДЕРЖАНИЕ
Использовать
IQR можно использовать для выявления выбросов (см. Ниже ).
Квартильное отклонение или полумежквартильный диапазон определяется как половина IQR.
Алгоритм
Учитывая четное 2n или нечетное 2n + 1 количество значений
первый квартиль Q 1 = медиана n наименьших значений третий квартиль Q 3 = медиана n наибольших значений
Примеры
Набор данных в таблице
Следующая таблица состоит из 13 строк и соответствует правилам нечетного количества записей.
я | х [я] | Медиана | Квартиль |
---|---|---|---|
1 | 7 | Q 2 = 87 (медиана всей таблицы) | Q 1 = 31 (медиана верхней половины, с 1 по 6 ряды) |
2 | 7 | ||
3 | 31 год | ||
4 | 31 год | ||
5 | 47 | ||
6 | 75 | ||
7 | 87 | ||
8 | 115 | ||
Q 3 = 119 (медиана нижней половины, с 8 по 13 ряды) | |||
9 | 116 | ||
10 | 119 | ||
11 | 119 | ||
12 | 155 | ||
13 | 177 |
Набор данных в виде простого текстового поля
Для набора данных в этой рамочной диаграмме :
Это означает, что усы 1,5 * IQR могут быть разной длины.
Распределения
Межквартильный размах и медиана некоторых распространенных распределений показаны ниже.
Распределение | Медиана | IQR |
---|---|---|
Обычный | μ | 2 Φ −1 (0,75) σ ≈ 1,349σ ≈ (27/20) σ |
Лаплас | μ | 2 б п (2) ≈ 1,386 б |
Коши | μ | 2γ |
Тест межквартильного размаха на нормальность распределения
Выбросы
Повторение статистики для начала путешествия по науке о данных
Меры расположения
Процентили
Процентили делят упорядоченные данные на сто равных частей. В рассортированных данных процентиль — это точка, показывающая процентное отношение значений в наборе данных, находящихся ниже данной точки.
50-й процентиль — это медиана.
Например, на графике ниже показано развитие ребенка от рождения до 2 лет. Получается, что 98% развития ребенка за первый год жизни составляет в весе меньше 11,5 кг.
Другим примером является распределение доходов в стране. 99-й процентиль — это уровень дохода, при котором 99% населения зарабатывают меньше этого значения и 1% — больше. Так в Великобритании, как показано на графике ниже, 99-й процентиль составляет 75.000 фунтов стерлингов.
Квартили
Квартили — это процентили, которые делят набор данных на четверти. Первый квартиль, Q1, равен 25-ому процентилю, третий квартиль, Q3, равен 75-ому процентилю. Медиана может быть обозначена либо вторым квартилем, Q2, либо 50-ым процентилем.
Интерквартильный размах (IQR)
IQR — число, которое показывает разброс средней половины (т.е. средние 50%) набора данных и помогает определить выбросы. IQR — это разница между Q3 и Q1.
Выбросы — это, проще говоря, те значения данных, которые находятся за пределами следующих интервалов: Q1–1.5 x IQR и Q3 + 1.5 x IQR.
Диаграмма «ящик с усами»
Диаграмма «ящик с усами» показывает:
Ящик с усами имеет горизонтальную и вертикальную оси и прямоугольный ящик.
«Усы» (выделенные фиолетовым цветом) начинаются с концов ящика и заканчиваются на самом минимальном или максимальном значениях данных. Также бывают ящики с усами, у которых есть отмеченные значения выбросов (выделены красным цветом). В таких случаях, усы не достигают минимального и максимального значений.
Ящики с усами на графике нормального распределения Ящики с усами на нормальных распределениях имеют некоторые особенности: Несмотря на то, что первый и третий квартили (Q1 и Q3) имеют такие названия, они, на самом деле, не составляют 25% от числа данных! Они показывают 34,135%. Также второй квартиль (Q2) составляет не 50%, а 68,27%.
Моменты случайной величины
Моменты случайно величины описывают различные аспекты характера и формы нашего распределения.
#1 — первый момент случайной величины — среднее значение данных, которое показывает место распределения.
#2 — второй момент случайной величины — дисперсия, которая показывает разброс распределения. Большие значения имеют больший размах, чем маленькие.
#3 — третий момент случайной величины — коэффициент асимметрии — мера того, насколько неравномерным является распределение. Коэффициент асимметрии положителен, если распределение наклонено влево и левый хвост короче правого. То есть среднее значение находится правее. И наоборот:
#4 — четвертый момент случайной величины — коэффициент эксцесса, который описывает то, насколько толстый хвост и насколько острый пик распределения. Этот коэффициент показывает, насколько вероятно найти точки экстремума в данных. Чем выше значение, тем вероятнее выбросы. Это похоже на разброс (дисперсию), но между ними есть отличия.
Как видно на графике, чем выше значение пики, тем выше коэффициент эксцесса, т.е. у верхней кривой коэффициент эксцесса выше, чем у нижней.
Интерквартильный размах
Для того, чтобы посчитать интерквартильный размах выборки, нужно сначала найти ее медиану. Перед поиском медианы выборку следуют упорядочить. Если выборка содержит нечетное количество элементов, то центральный элемент и будет медианой. Если выборка содержит четное количество — медианой будет среднее арифметическое двух центральных элементов.
Разберемся, как найти интерквартильный размах для выборки с четным количеством элементов. Для начала ее нужно упорядочить от меньшего к большему:
Медианой в этой выборке будет среднее арифметическое двух центральных элементов:
После того, как найдена медиана всей выборки, ее нужно разделить на две части — левее медианы и правее, и найти медиану каждой половины:
Медиана всей выборки — это второй квартиль, медианы левой и правой половин — это, соответственно первый (или нижний) и третий (или верхний) квартили:
Интерквартильный размах — это просто разность между третьим и первым квартилями:
Для выборки с нечетным количеством элементов, размах считается практически так же. Разница состоит в том, что медиана выборки (или второй квартиль) — это центральный элемент, а первый и третий квартили считаются как среднее арифметическое двух центральных элементов подвыборок, лежащих слева и справа от медианы всей выборки (не включая саму медиану):
Кстати, первый, второй и третий квартиль еще называются, соответственно, 25-й, 50-й и 75-й перцентиль. Поэтому, когда вам говорят, что уровень зарплаты для вашего грейда считается как 75-й перцентиль от уровня зарплат по рынку, имеют ввиду именно третий квартиль.