Ящик с усами в excel для чего

 

Excel 2016, как известно, обогатился новыми типами диаграмм. Одна такая, которая диаграмма Парето, уже была показана. В этот раз рассмотрим другую, чисто статистическую. Называется «ящик с усами» или «коробчатая диаграмма» (box-and-whiskers plot или boxplot).

Раньше я такие видел только в специализированных ПО, типа STATISTICA, и для того, чтобы нарисовать подобную диаграмму в Excel, нужно было изрядно потрудиться. Теперь она есть в стандартном наборе Excel.

Диаграмма ящик с усами на ленте Excel 2016

Зачем нужна такая диаграмма? Допустим, есть выборка для анализа. А еще лучше несколько выборок, которые нужно сравнить. Для этого рассчитывают различные показатели. Однако к любому расчету всегда хочется добавить наглядности, чтобы мозг перешел в режим образного представления, а не довольствовался сухими цифрами и формулами. Поэтому основные характеристики ловко изображают на рисунке. Отличным вариантом будет как раз диаграмма «ящик с усами».

Пример двух выборок на диаграмме ящик с усами

На рисунке показан формат по умолчанию. Как видно, сравниваются две выборки путем изображения двух «ящиков с усами».

Что здесь что обозначает?

Крестик посередине – это среднее арифметическое по выборке.

Линия чуть выше или ниже крестика – медиана.

Нижняя и верхняя грань прямоугольника (типа ящика) соответствует первому и третьему квартилю (значениям, отделяющим ¼ и ¾ выборки). Расстояние между 1-м и 3-м квартилем – это межквартильный размах (или расстояние).

Горизонтальные черточки на конце «усов» – максимальное и минимальное значение (без учета выбросов, см. ниже).

Отдельные точки – это выбросы, которые показываются по умолчанию. Если значение выходит за пределы 1,5 межквартильных размаха от ближайшего квартиля, то оно считается аномальным. Их можно скрыть (см. ниже настройки).

Во всей красе «ящик с усами» проявляется при сравнении выборок, в которых данные делятся на категории. Допустим, провели некоторый эксперимент среди мужчин и женщин. Есть данные до и после эксперимента по обоим полам. Для анализа потребуется вычислить различные показатели. А если к этому добавить диаграмму «ящик с усами», то результат будет весьма наглядным.

Анализ выборок с категориями на диаграмме ящик с усами

Отлично видно, что после проведения эксперимента данные по мужчинам в целом уменьшились, а данные среди женщин наоборот, увеличились. Это не значит, что выборки больше не нужно анализировать (сравнивать, проверять гипотезы и т.д.). Но наглядность сильно улучшает понимание. Перейдем к настройкам.

Настройки диаграммы «ящик с усами»

Общий вид диаграммы настраивается стандартно. Можно менять цвет, добавлять подписи и т.д. Для этого есть две контекстные вкладки на ленте (Конструктор и Формат). Но есть настройки, предназначенные специально для этой диаграммы.

Выбираем какой-либо ряд и жмем Ctrl+1. Либо два раза кликаем по какому-нибудь «ящику». Можно через правую кнопку Формат ряда данных…. Справа вылазит панель настроек.

Панель настроек для диаграммы ящик с усами

Рассмотрим по порядку.

Боковой зазор – регулирует ширину ящиков и расстояние между ними.

Показывать внутренние точки. Если поставить галочку, то на оси, где расположены «усы», точками будут показаны все значения. Так хорошо видно распределение внутри групп.

Все точки на диаграмме ящик с усами

Показывать точки выбросов – отражать экстремальные значения.

Выбросы

Выбросы – это точки, выходящие за пределы 1,5 межквартильных размаха.

Показать средние метки – среднее арифметическое (крестики). Стоят по умолчанию, но можно скрыть.

Показать среднюю линию – только для различных категорий. Показывает изменения по категориям.

Изменения в категориях

Если добавить линии, то изменения после эксперимента станут видны еще лучше. В справке написано, что соединяются медианы, но на графике почему-то соединяются средние. Чудеса.

Инклюзивная медиана или эксклюзивная медиана. Инклюзивная медиана включает в «ящик» квартильные значения , а эксклюзивная медиана не включает. При выборе «эксклюзивной медианы» верх и низ «ящика» соответствует средней между квартильным и следующим (от центра) значением. По умолчанию стоит «эксклюзивная». Пусть стоит дальше. Причем тут медиана, вообще не понял, – речь ведь про квартиль. Думал, криво перевели, но в английской версии те же названия. В общем, здесь лучше ничего не менять.

Своевременное использование диаграммы «ящик-усы» может дать весьма ценную и наглядную информацию. Аналитику, который использует специализированные программы или трудоемкие настройки Excel, будет очень приятно иметь такую диаграмму под рукой.

Как показано в ролике ниже, все делается очень быстро и просто.

Поделиться в социальных сетях:

 

 

Диаграмма со смешным названием “Ящик с усами” используется в Excel, как правило, для проведения статистического анализа. Когда имеется массив данных для нескольких тестовых групп за различные периоды, и необходимо понять, как изменился разброс показателей — не обойтись без этой диаграммы.

Конечно, если вывести все эти показатели в таблицу — то какой-то результат тоже можно увидеть. Но визуализации в виде диаграмм всегда воспринимаются лучше, чем просто цифры (тем более, что не все руководители дружат с цифрами).

Еще несколько лет назад для построения диаграммы “Ящик с усами” нужно было пользоваться специализированным софтом (или как минимум Python) или очень сильно колдовать в excel. Но начиная с версии Excel- 2016, данный вид диаграммы входит в стандартный пакет.

В этой статье мы рассмотрим два варианта построения диаграммы Ящик с усами: простой — для счастливых обладателей Excel от  2016-й версии и моложе, и сложный — “танцы с бубном” для тех, кому с версией Excel повезло меньше.

Содержание статьи:

  • Из чего состоит диаграмма Ящик с усами
  • Диаграмма Ящик с усами встроенным инструментом Excel (для версий от 2016 и новее)
  • Диаграмма Ящик с усами при помощи гистограммы с накоплением (для версий Excel до 2016 г)

Из чего состоит диаграмма

Смысл диаграммы Ящик с усами в том, чтобы показать основные характеристики статистической выборки данных: распределение данных между квартилями, среднее значение, медиану, максимальное и минимальное значения, а также выбросы данных.

Ящик с усами - для чего нужна эта диаграмма в Excel

Думаю, понятно, что ящик — это прямоугольник с заливкой, а усы — это черточки над и под прямоугольником.

Ящик — это межквартильный размах (или расстояние) — отделяет ¼ и ¾ выборки данных. Если ящик, условно говоря, большой — больше другого ящика — это означает, что выборка относительно однородна, и большая часть данных сконцентрирована вокруг медианы.

Черточки усов — это максимальное и минимальное значение (без учета выбросов).

Ус снизу — это разница между минимумом и 1-м квартилем.

Ус сверху — это разница между 3-м квартилем и максимумом.

Крестик посередине — среднее арифметическое значение по выборке.

Черта посередине ящика — медиана по выборке.

Выбросы — значения, сильно отклоняющиеся от основного массива выборки (выходит за пределы 1,5 межквартильных размаха от ближайшего квартиля).

Чтобы стало еще понятнее, рассмотрим построение диаграммы Ящик с усами на примере в excel. В нашем примере есть две возрастных группы покупателей: от 18 до 30 лет и от 30 до 45 лет. По ним имеем данные о суммах в чеках, на которые они совершали покупки.

Позже была проведена маркетинговая акция, и нужно понять, что изменилось в распределении сумм покупок в каждой группе.

Диаграмма Ящик с усами встроенным инструментом Excel (для версий от 2016 и новее)

Часть выборки данных выглядит следующим образом:

Ящик с усами - для чего нужна эта диаграмма в Excel

В левом столбце показатель периода (было до акции — стало после акции). Вверху названия групп (18-30, 31-45), и в ячейках суммы, на которые совершались покупки.

Внимание: таблица не должна содержать никаких итогов!

Все, что нужно сделать — это выделить массив данных вместе с названием периода и заголовками столбцов и далее: вкладка Вставка — блок Диаграммы — кнопка Гистограммы — выбрать Ящик с усами.

Ящик с усами - для чего нужна эта диаграмма в Excel

Переименовываем диаграмму и наслаждаемся результатом.

Ящик с усами - для чего нужна эта диаграмма в Excel

Произведем некоторые настройки.

Во-первых, выведем легенду, чтобы было понятно, где какая группа.

Ящик с усами - для чего нужна эта диаграмма в Excel

Во-вторых, добавим среднюю линию, показывающую тренд между периодами. Среднюю линию можно добавить, если есть не менее двух рядов данных.

Правой кнопкой мыши щелкнем на “ящике”, и выберем Формат ряда данных, установим “галку” Средняя линия.

Здесь же можно регулировать отображение точек выбросов на диаграмме.

Ящик с усами - для чего нужна эта диаграмма в Excel

Диаграмма готова.

Ящик с усами - для чего нужна эта диаграмма в Excel

Что можно понять из диаграммы Ящик с усами, которую мы сейчас построили:

  • В группе 18-30 лет средний чек немного вырос. Смотрим на крестик, который отображает среднее значение, и на среднюю линию, которая идет слегка вверх.
  • В группе 31-45 лет средний чек, наоборот, прилично упал. Это говорит о том, что формат акции не попал в эту целевую аудиторию.
  • Медианная сумма, на которую чаще всего совершали покупки (линия посередине ящика) также немного выросла для группы 18-30, и упала для группы 31-45, что также говорит о неудачной акции для второй группы.
  • Размер ящика для группы 18-30 увеличился, также и низ, и верх ящика заняли более высокие позиции. Снова “за” успешность акции для этой категории покупателей, они стали совершать более разнообразные покупки, и в целом тратить больше денег.
  • А группа 31-45, напротив, стала тратить меньше денег (низ и верх ящика снизили позиции на графике), и размер ящика также уменьшился, как и размер усов. Т.е.покупки стали более фиксированными (возможно, остались самые постоянные покупатели с фик
  • Присутствует также один выброс для группы 31-45 — точка на уровне 7800. Это чек, сумма которого сильно отклоняется от основной массы покупок.

Диаграмма Ящик с усами в excel при помощи гистограммы с накоплением (для версий Excel до 2016 г)

Работать будем с той же выборкой данных, только переформатируем ее так, чтобы для каждого ящика был отдельный столбец.

Ящик с усами - для чего нужна эта диаграмма в Excel

Создадим дополнительную таблицу, в которой пропишем определенные формулы. Форму таблицы и формулы смотрите на картинке:

Ящик с усами - для чего нужна эта диаграмма в Excel

Выделим заголовки и строки Низ, 2Q Коробка и 3Q Коробка (как на картинке).

Ящик с усами - для чего нужна эта диаграмма в Excel

Перейдем во вкладку Вставка — Гистограмма — Гистограмма с накоплением.

Ящик с усами - для чего нужна эта диаграмма в Excel

Теперь нужно нарисовать усы, начнем с нижних. Выделим на диаграмме ряд Низ, и перейдем на вкладку Конструктор — Макеты диаграмм — Добавить элементы диаграмм — Предел погрешностей — Дополнительные параметры погрешностей.

Ящик с усами - для чего нужна эта диаграмма в Excel

В окне Формат предела погрешностей нужно установить параметры в следующем порядке:

  1. Вертикальный предел погрешностей — Направление — Минус
  2. Величина погрешности — Пользовательская
  3. Нажать кнопку Укажите значение
  4. Поле Положительное значение ошибки оставить без изменений. Поле Отрицательное значение ошибки активировать и выделить значения из таблицы, соответствующие строке “Усы -” (только цифры).

Ящик с усами - для чего нужна эта диаграмма в Excel

Должны появиться вот такие черточки.

Ящик с усами - для чего нужна эта диаграмма в Excel

Теперь похожим образом нужно нарисовать верхние усы. Для этого выделим ряд 3Q Коробка, и снова перейдем на вкладку Конструктор — Макеты диаграмм — Добавить элементы диаграмм — Предел погрешностей — Дополнительные параметры погрешностей.

Ящик с усами - для чего нужна эта диаграмма в Excel

Здесь нужно указать направление вертикального предела погрешностей Плюс, величина погрешности Пользовательская, нажать кнопку Укажите значения. В поле Положительное значение установить курсор и выделить значения из строки “Усы +”. Поле Отрицательное значение ошибки оставить без изменений.

Должны появиться верхние усы.

Ящик с усами - для чего нужна эта диаграмма в Excel

Осталось немного доработать внешний вид диаграммы.

Уберем заливку с ряда Низ (синий в примере). Для этого выделим его, щелкнем правой кнопкой мыши — Формат ряда данных — и в блоке Заливка укажем Нет заливки.

Ящик с усами - для чего нужна эта диаграмма в Excel

Не выходя из окна Формат ряда данных, изменим цвет для ящиков.

Ящик с усами - для чего нужна эта диаграмма в Excel

Осталось добавить среднее значение (крестик).

Для этого выделим строку Среднее (только числа) и нажмем Ctrl + С.

Ящик с усами - для чего нужна эта диаграмма в Excel

Теперь выделим диаграмму и нажмем Ctrl + V. Должно получиться что-то похожее на картинку:

Ящик с усами - для чего нужна эта диаграмма в Excel

Правой кнопкой мыши щелкаем на новом ряде данных и выбираем Изменить тип диаграммы для ряда.

Ящик с усами - для чего нужна эта диаграмма в Excel

И для нового ряда выбираем тип диаграммы Точечная.

Ящик с усами - для чего нужна эта диаграмма в Excel

Обязательно снимите “галку” Вспомогательная ось”, если она установилась.

Осталось изменить точку на крестик (по желанию). Дважды щелкаем на любой точке, и в открывшемся окне Формат ряда данных выбираем: Маркер — Встроенный — крестик в выпадающем списке.

Ящик с усами - для чего нужна эта диаграмма в Excel

Диаграмма готова.

Ящик с усами - для чего нужна эта диаграмма в Excel

Конечно, у нее есть несколько недостатков по сравнению со встроенным инструментом:

  • из диаграммы намеренно убраны точки выбросов, поскольку они существенно исказили бы результат. Точки выбросов можно нарисовать отдельно аналогично тому, как мы создавали крестики для среднего значения. Или не использовать их совсем.
  • Нет средней линии между блоками одного ряда. При желании и сильно заморочившись, их можно нарисовать при помощи графиков. Возможно, в этой статье будет продолжение, как это сделать.
  • Ряды данных не разделены визуально. Где ряд Было и Стало, видно только из названия.

Но в целом, если нет возможности установить более новую версию Excel, то это неплохой обходной путь создать диаграмму Ящик с усами в Excel.

Вам может быть интересно:

 

Создание диаграммы «ящик с усами»

  1. Выделите данные (один или несколько рядов).

    Значения на изображении ниже являются частью набора данных, на основе которого был создан показанный выше образец диаграммы.

    Изображение фрагмента данных, использованных для создания примера диаграммы "ящик с усами"

  2. В Excel выберите команды Вставка > Вставить диаграмму статистики > Ящик с усами, как показано на рисунке ниже.

    Важно: В Word, Outlook и PowerPoint порядок действий немного другой.

    1. На вкладке Вставка в группе Иллюстрации нажмите кнопку Диаграмма.
    2. В диалоговом окне Вставка диаграммы на вкладке Все диаграммы выберите элемент Ящик с усами.

    Тип диаграммы "ящик с усами" на вкладке "Вставка" в Office 2016 для Windows

Советы: 

  • На вкладках Конструктор и Формат можно настроить внешний вид диаграммы.

    Вкладки "Конструктор" и "Формат" в разделе "Работа с диаграммами"

  • Если они не отображаются, щелкните в любом месте диаграммы «ящик с усами», чтобы добавить на ленту область Работа с диаграммами.

Параметры диаграммы «ящик с усами»

  1. Щелкните правой кнопкой мыши одно из полей на диаграмме, чтобы выбрать его, а затем в контекстном меню выберите пункт Формат ряда данных.
  2. В области Формат ряда данных, выбрав Параметры ряда, внесите необходимые изменения.

    (Руководствуйтесь информацией в таблице под приведенным ниже рисунком.)

    Область задач "Формат ряда данных", в которой показаны параметры диаграммы "ящик с усами" в Office 2016 для Windows

    Параметр ряда Описание
    Ширина зазора Управление зазором между категориями.
    Показывать внутренние точки Отображение точек данных между верхней и нижней усами.
    .
    Показывать точки выбросов Отображает точки выбросов, которые находятся ниже линии верхней или нижней точки уса.
    .
    Показывать маркеры медиан Отображение маркеров медианы выбранного ряда.
    Показывать линию медиан Отображение линии, соединяющей медианы блоков в выбранном ряде.
    Вычисление квартилей Выберите метод вычисления медиан.

    • Инклюзивная медиана    Медиана включается в вычисления, если N (число значений в данных) — нечетное число.
    • Исключающая медиана    Медиана исключается из вычислений, если N (число значений в данных) — нечетное число.

Создание диаграммы «ящик с усами»

  1. Выделите данные (один или несколько рядов).

    Значения на изображении ниже являются частью набора данных, на основе которого был создан показанный выше образец диаграммы.

    Изображение фрагмента данных, использованных для создания примера диаграммы "ящик с усами"

  2. На ленте на вкладке «Вставка» щелкните Значок статистической диаграммы (значок статистической диаграммы) и выберите «Ящик с усами».

Советы: 

  • На вкладке «Конструктор диаграмм» и «Формат» можно настроить внешний вид диаграммы.
  • Если вкладки «Конструктор диаграмм» и «Формат» не вы видите, щелкните в любом месте диаграммы «ящик с усами», чтобы добавить их на ленту.

Параметры диаграммы «ящик с усами»

  1. Щелкните одно из полей на диаграмме, чтобы выбрать его, а затем на ленте нажмите кнопку «Формат».
  2. Внести нужные изменения можно с помощью инструментов на вкладке «Формат».

 


Блочная диаграмма (диаграмма размаха, ящик с усами) является наглядным и компактным способом представить распределение данных в выборке.

Чтобы для заданной

выборки

построить в MS EXCEL классическую

блочную диаграмму

(иногда она называется

Диаграмма размаха

или

Ящик с усами,

англ

.

box plot, box-and-whiskers diagram) необходимо предварительно вычислить пять показателей:

медиану выборки

, 1-й и 3-й

квартиль

, а также

минимальное

и

максимальное

значение.


Примечание

: Определение квартилей дано в статье

Квартили и интерквартильный интервал (IQR) в MS EXCEL

. Там же показано как их вычислять в MS EXCEL.


Блочная диаграмма

используется для оценки разброса значений в небольших

выборках

или для сравнения нескольких

выборок

.


Примечание

: Характеристикой разброса значений в

выборке

является также

дисперсия и стандартное отклонение

.


Блочная диаграмма

может быть полезна, когда количества значений в

выборке

недостаточно для построения полноценной гистограммы.

Построим

блочную диаграмму

с помощью

Гистограммы с накоплением

.


СОВЕТ

: Для начинающих пользователей EXCEL советуем прочитать статью

Основы построения диаграмм в MS EXCEL

, в которой рассказывается о базовых настройках диаграмм, а также

статью об основных типах диаграмм

.


Примечание

:

Блочная диаграмма

может строиться как вертикально (см. рисунок выше), так и горизонтально (см. ниже).

Для построения

блочной диаграммы

нам потребуются 5 наборов значений в строках 45-78

файла примера

, лист Box-plot.

При вертикальном расположении нижняя сторона блока (ящика) соответствует Q1 (первому

квартилю

), а верхняя сторона – Q3 (третьему

квартилю

). Соответственно, высота блока равна

интерквартильному размаху IQR

. Линия внутри блока соответствует медиане (Q2).


Примечание

: Чтобы вычислить квартили используйте функцию

КВАРТИЛЬ.ВКЛ()

.

Если для построения самого блока используется

Гистограмма с накоплением

, то для усов используются

вертикальные планки погрешностей

. Усы сверху и снизу блока заканчиваются соответственно максимальным и минимальным значением из набора.

Чтобы построить нижний ус необходимо выделить нижнюю (невидимую) часть

гистограммы

(см. рисунок выше). Затем, во вкладке

Макет

в группе

Анализ

выбрать команду

Планки погрешностей

, и, наконец, после раскрытия подменю, пункт

Дополнительные параметры планок погрешностей

… После этого откроется диалоговое окно.

Установите направление «Минус», выберите пользовательскую величину погрешности и нажмите кнопку

Укажите значение

. В появившемся окне, в поле

Отрицательное значение ошибки,

введите ссылку на ячейки содержащие разность значений Q1 и минимальных значений для каждого набора данных.

Для верхнего уса нужно проделать подобные действия, предварительно выделив часть гистограммы соответствующую верхней части блока.

Теперь, используя блочную диаграмму, попытаемся сравнить несколько наборов данных.

Предположим, что необходимо сравнить 5 различных ресторанов по доставке пиццы. В каждом ресторане было сделано по 30-20 заказов, а срок доставки пиццы фиксировался в таблице (в минутах). Пусть наши 5 блочных диаграмм соответствуют этим 5 наборам значений.

Для примера сравним первые 2 ресторана (

выборка

№1 и №2).

Очевидно, что второй ресторан справляется гораздо лучше второго: типичное время доставки 1-го ресторана (

медиана

) чуть больше 60 минут, а у второго только 20. Кроме того,

IQR

(высота блока, соответствующая разбросу значений) у второго ресторана в несколько раз меньше, то есть его срок доставки гораздо более предсказуем, чем у первого. Очевидно, что сравнивать рестораны, используя блочные диаграммы, гораздо проще, чем анализировать данные непосредственно в таблице.

В

файле примера

также построены

Блочная диаграмма с подписями

и

Блочная диаграмма с горизонтальным размещением

.


Блочная диаграмма с подписями

построена с помощью обычной

гистограммы с группировкой

(использованы ряды с перекрытием).

Кроме того, на диаграмме в качестве целевого значения, выведена горизонтальная линия (зеленая). Это целевое значение можно использовать в качестве порога: если типичное значение выборки ниже или выше порогового значения, то соответствующий объект не соответствует некому требованию.

Горизонтальное размещение диаграмм построено на основе диаграммы

Линейчатая с группировкой

.


Примечание

: В

файле примера

для удобства написания формул использована функция

ДВССЫЛ()

. Подробнее об этой функции можно прочитать в статье

Функция ДВССЫЛ() в MS EXCEL

.

 

 

Предыстория. В связи с холодными днями в мае и июне 2017 г. я изучил климатические данные многолетних наблюдений, и хотел опубликовать заметку о статистическом взгляде на всё это безобразие. В качестве иллюстрации одной из своих идей я построил блочную диаграмму. Во время ее форматирования я обнаружил, что не вполне понимаю, по каким алгоритмам Excel рисует на ней границы квартилей. Углубившись в вопрос, я узнал много нового, о чем захотел поделиться с читателями блога. Но подумал, что описание тонких алгоритмов как бы повисает в воздухе, и поэтому решил начать с небольшого теоретического введения.

Рис. 1. Визуальное представление выборки: (а) диаграмма разброса показывает все элементы выборки; (б) 5-числовая сводка в виде графика ящик с усами

Скачать заметку в формате Word или pdf, примеры в формате Excel

5-числовая сводка данных

Изучая выборку, мы можем визуализировать все ее значения (рис. 1а), а можем научиться выражать в сжатом виде наиболее часто встречающиеся общие особенности. В последнем случае используют сводки данных. Сегодня наиболее популярными сводками (или статистиками) являются среднее значение и среднеквадратичное отклонение (подробнее см. Определение среднего значения, вариации и формы распределения. Описательные статистики). Однако, во-первых, так было не всегда, а во-вторых, не во всех случаях эти статистики лучше всего описывают выборку.

Любопытный пример приводит Нассим Николас Талеб (см. Черный лебедь. Под знаком непредсказуемости). Если вы определяете средний рост 100 человек, то нахождение среди этой сотни самого высокого человека в мире (2 м 72 см) не сильно изменит среднее значение. А вот если вы определяете среднее богатство 100 человек, то наличие среди них Билла Гейтса ($86,8 млрд.) полностью исказит картину. В этих случаях более релевантной сводкой является медиана.

Медиана – такое число, что ровно половина из элементов выборки больше него, а другая половина меньше него. Если случайные данные упорядочить по возрастанию, получится вариационный ряд. Если такой ряд содержит нечетное число элементов, то медиана – среднее из них; если четное, то медиана – половина суммы двух средних элементов.

В своей, уже ставшей классической, работе Анализ результатов наблюдений. Разведочный анализ Джон Тьюки предлагает 5-числовые сводки, которые включают: минимальное значение, первый квартиль, медиану, третий квартиль, максимальное значение. Процесс нахождения медианы, а затем квартилей можно представить себе, как складывание листа бумаги. Поэтому эти новые значения Тьюки называет сгибами (подробнее см. КВАРТИЛЬ: какие формулы расчета использует Excel). Чтобы представить 5-чиловую сводку визуально, Тьюки предлагает построить график ящик с усами (рис. 1б).

Диаграмма ящик с усами в Excel 2016

В предыдущих версиях Excel приходилось шаманить, чтобы представить статистические данные (см., например, Биржевая диаграмма, она же блочная, она же ящичная). В качестве альтернативы я иногда использовал R (см. Алексей Шипунов. Наглядная статистика. Используем R!). Сейчас же визуализация статистических данных выполняется в несколько кликов. Очень удобно! Вот только Microsoft почему-то сделал весьма краткое описание того, что же собственно отражают элементы диаграммы ящик с усами (см. поддержку MS). Восполним же этот пробел))

Построим диаграмму ящик с усами на основе данных о средних температурах июля за последние 30 лет (рис. 2).

Рис. 2. Основные настройки диаграммы ящик с усами

На рисунке под диаграммой рассчитана 5-числовая сводка. На диаграмме:

  • нижний ус соответствует минимальному значению в выборке данных,
  • низ ящика – 1-му квартилю,
  • линия внутри ящика – медиане,
  • верх ящика – 3-му квартилю,
  • верхний ус – второму максимальному значению (выбросы не учитываются); если бы данные не содержали выброса, верхний ус соответствовал бы максимальному значению,
  • опциально отдельными точками показаны выбросы.

Рассмотрим параметры ряда подробнее (см. Формат ряда данных на правой части рис. 2). Боковой зазор определяет ширину ящика и ширину горизонтальных границ усов, а также расстояние между ящиками, если их несколько (рис. 3). Параметр Показать внутренние точки – говорит сам за себя (рис. 4). Показать точки выбросов – любопытно, что Excel просто перестает показывать выбросы, при этом никак не меняет параметры ящика и усов (рис. 5). Показать средние метки – наряду с медианной линией отражает в виде крестика среднее арифметическое значение по выборке (рис. 6). Видно, что среднее арифметическое смещено относительно медианы вверх (в сторону выброса). Среднее арифметическое более чувствительно к выбросам по сравнению с медианой. Показать среднюю линию – соединяет средние значения разных категорий. У меня не получилось отразить эти линии. А у Дмитрия Езипова получилось.

Рис. 3. Боковой зазор: слева – 300%, справа – 100%

Рис. 4. Показать внутренние точки; слева параметр выключен, справа – включен

Рис. 5. Показать точки выбросов; слева параметр выключен, справа – включен

Рис. 6. Показать средние метки; слева параметр выключен, справа – включен

Какой метод расчета квартилей предпочесть

И, наконец, самый непонятный параметр форматирования диаграммы ящик с усами – Расчет квартиля. В сообществе статистиков нет единого мнения, по какому алгоритму считать квартили. В Excel используется два алгоритма. Если вы хотите в них досконально разобраться, рекомендую КВАРТИЛЬ: какие формулы расчета использует Excel. Если кратко, то в Excel есть две функции КВАРТИЛЬ.ИСКЛ() и КВАРТИЛЬ.ВКЛ(). Первая использует алгоритм эксклюзивной медианы, вторая – инклюзивной. Алгоритм расчета квартилей в первом случае дает значения чуть более далекие от медианы, т.е. ящик немного более вытянутый. Визуально это не разглядеть, и только если добавить подписи данных, то числа покажут этот эффект (рис. 7).

Рис. 7. Расчет квартиля: (а) эксклюзивная медиана, (б) инклюзивная медиана

Если вы обрабатываете данные в разных программах (Excel, R, SAS…), то для совместимости, наверное, лучше использовать квартили, рассчитанные по методу эксклюзивной медианы. Поскольку этот метод используется во всех продуктах, вы получите одинаковые числа в разных программах. Если же вы работаете только в Excel, я бы рекомендовал метод инклюзивной медианы. Он более чувствителен к выбросам, т.е. при прочих равных КВАРТИЛЬ.ВКЛ() определит точку как выброс при меньшем отклонении от медианы (рис. 8).

Рис. 8. (б) Точка, которая идентифицируется функцией КВАРТИЛЬ.ВКЛ(), как выброс, в то время, как (а) КВАРТИЛЬ.ИСКЛ() еще не считает эту точку выбросом

 

91-0-диаграмма ящик с усами excel лого

Диаграмма Ящик с усами (англ. Box and Whisker Chart, Box Plot) обычно используется для отображения статистического анализа. К сожалению, Excel не может строить такие диаграммы, но вы можете создать свою диаграмму ящик с усами с помощью гистограммы и планок погрешностей. Данная статья посвящена тому, как построить вертикальный Box Plot в Excel 2013.

91-1-диаграмма ящик с усами excel

Простая диаграмма ящика с усами отображает диапазон данных, находящийся между первым и третьим квартилем, а медиана делит эту коробку на две части (межквартильный диапазон). Усы отображают данные первого квартиля — от второго квартиля до минимального значения, и четвертого квартиля – от третьего до максимального значения.

Подготовка данных

Чтобы лучше понять материал и работать с одними и теми же цифрами, скачайте книгу Excel с примером Диаграмма ящик с усами.xlsx.

Данные, используемые в примере имеют нормальное распределение со средним значением равным 10 и стандартным отклонением равным 5-ти. Данные имеют четыре столбца по 20 значений.

Все значения положительные, так как при смешанном (положительные и отрицательные значения) виде, данная методика требует некоторых модификаций.

91-2-Данные для boxplot

Прежде чем начать строить диаграмму, нам необходимо произвести некоторые расчеты и подготовить данные. Для этого вставьте пустые строки над массивом и заполните заголовки показателями, которые потребуются для построения диаграммы, как показано на рисунке.

91-3-подготовка данных для boxplot

Для начала рассчитаем некоторые простые статистические меры, такие как количество значений, среднее и стандартное отклонение. Формулы, используемые для расчетов отображены на рисунке ниже.

91-4-данные для boxblop

Теперь рассчитаем минимум, максимум, медиану, значение первого и третьего квартиля.

91-5-данные для boxblop

Наконец, давайте определим значения, которые станут основой построения. Наша диаграмма имеет коробку второго квартиля, которая отображает разницу между медианой и первым квартилем, значения которых мы рассчитали ранее. Также имеется коробка третьего квартиля – рассчитывается как разница между значением третьего квартиля и медианой. Нижняя часть коробки опирается на первый квартиль. Длина нижних усов равняется значению первого квартиля минус минимальное значение, длина верхних усов – максимум минус значение третьего квартиля.

91-6-данные для boxblop

Построение диаграммы ящик с усами

Выделите заголовок таблицы с расчетами, затем удерживая клавишу Ctrl, выделите три строки содержащие данные Низ, 2Q Коробка и 3Q Коробка. Этот диапазон с несколькими площадями выделен оранжевым на рисунке ниже.

91-7-построение ящика с усами

Во вкладке Вставка перейдите в группу Диаграммы и выберите Вставить гистограмму –> Гистограмма с накоплением.

91-8-первоначальная диаграмма коробки с усами

Чтобы добавить усы, выделите ряд данных Низ. Перейдите во вкладку Работа с диаграммами -> Конструктор в группу Макеты диаграмм. Нажмите кнопку Добавить элемент диаграммы, в выпадающем меню выберите Предел погрешностей -> Дополнительные параметры предела погрешностей. В появишейся справа панели Формат предела погрешностей в поле Направление установите маркер Минус, а в поле Величина погрешности установите маркер Пользовательская и нажмите кнопку Укажите значение. В появившемся диалоговом окне Настраиваемый предел погрешности поле Положительные значения ошибки оставьте без изменений, а для Отрицательные значения ошибки укажите диапазон B14:E14, который называется Усы-.

91-9-Настраиваемый предел погрешностей

Нажимаем OK и получаем диаграмму, имеющую следующий вид.

91-10-ящик с нижними усами

Теперь необходимо добавить верхние усы. Для этого выделяем ряд данных 3Q Коробка и повторяем действия описанные выше, только теперь в поле Направление панели Формат предела погрешностей устанавливаем маркер Плюс. А в диалоговом окне Натраиваемый предел погрешностей поле Отрицательное значение ошибки оставляем неизменным, а в поле Положительное значение ошибки указываем диапазон B15:E15, который называется Усы+. Жмем ОК и получам следующую диаграмму ящика с усами.

91-11-ящик с верхними усами

Осталось навести антураж и отформатировать нашу таблицу. Выделяем ряд данных Низ и убираем заливку и границы ряда данных. Для ряда данных 2Q Коробка и 3Q Коробка задаем светло серую заливку и темный контур. Удаляем легенду и название диаграммы.

91-13-форматирование диаграммы

Добавление среднего значения

Чтобы добавить данные со средним значение к каждому ящику, выделите ряд под названием Среднее. На картинке выделено голубым.

91-12-данные для среднего

Скопируйте выделенные данные в буфер обмена с помощью сочетания клавиш Ctrl+C. Затем выделите диаграмму и вставьте скопированные данные с помощью клавиш Ctrl+V. У вас должна получиться следующая картинка.

91-13-построение среднего

Щелкните по новому ряду данных правой кнопкой мыши и выберите Изменить тип диаграммы для ряда. В появившемся диалоговом окне Изменение типа диаграммы найдите рад данных Среднее, поменяйте тип диаграммы на Точечная и снимите маркер Вспомогательная ось, если он был установлен.

91-14-финальная диаграмма ящик с усами Excel

Наша финальная диаграмма ящик с усами готова. На ней можно увидеть распределение данных от первого до третьего квартиля, медиану и среднее значение.

Квадратные и усечные графики обычно используются для отображения информации из связанных наборов данных, которые имеют независимые источники, такие как результаты тестов между различными школами или данные до и после изменений в процессе или процедуре.

В последних версиях Excel вы можете создать рамочную диаграмму и диаграмму усов, используя инструмент Вставить диаграмму . Хотя в старых версиях Excel по умолчанию нет создателя диаграмм с усами , вы можете создать его, преобразовав столбчатую диаграмму с накоплением в рамочную диаграмму, а затем добавив усы.

Эти инструкции применимы к Excel 2019, Excel 2016, Excel для Office 365, Excel 2013 и Excel 2010.

Используйте Excel’s Box и Whisker Plot Maker

Для Excel 2019, Excel 2016 или Excel для Office 365 создайте диаграмму с рамками и усами, используя инструмент Вставить диаграмму.

  1. Снимок экрана с данными для коробки и диаграммы с усами

  2. Скриншот выбранных данных

  3. Выберите вкладку « Вставка ».

    Снимок экрана вкладки "Вставка" в Excel

  4. Выберите « Рекомендованные диаграммы» в группе « Диаграммы » или выберите средство запуска диалогового окна в правом нижнем углу группы диаграмм. Откроется диалоговое окно « Вставка диаграммы ».

    Снимок экрана: диалоговое окно "Вставка диаграммы"

  5. Выберите вкладку « Все графики ».

    Снимок экрана: диалоговое окно "Вставка диаграммы" с выбранной вкладкой "Все диаграммы"

  6. Выберите Box и Whisker и нажмите ОК . На листе появится базовая рамка и диаграмма с усами.

    Снимок экрана: опция Box и Whisker

Превратите диаграмму участка в коробку и участок вискера

Для Excel 2013 или Excel 2010 начните со столбчатой ​​диаграммы с накоплением и преобразуйте ее в блочную диаграмму.

Создайте базовую диаграмму в Excel и добавьте усы.

Снимок экрана основной диаграммы в Excel

Добавьте Top Whisker

Усы на диаграмме и на диаграмме с усами показывают изменчивость за пределами верхнего и нижнего квартилей. Любая точка данных, которая выходит за пределы верхней или нижней линии усов, будет считаться выбросом при анализе данных.

  1. Выберите верхний ящик , а затем выберите Добавить элемент диаграммы на Chart Дизайн вкладки.

    Снимок экрана: Добавить элемент диаграммы

  2. Выберите « Панели ошибок» и выберите « Дополнительные параметры панели ошибок» . Откроется меню « Форматировать ошибки» .

    Снимок экрана: дополнительные параметры панели ошибок

  3. Выберите « Плюс» в разделе « Направление в панели ошибок» .

    Скриншот Plus под руководством

  4. Выберите Custom и выберите Specify Value в разделе суммы ошибок . Откроется диалоговое окно « Пользовательские панели ошибок» .

    Снимок экрана: диалоговое окно "Пользовательские панели ошибок"

Добавьте Нижний Усик

После того как вы добавили верхние усы, вы можете добавить нижние усы аналогичным образом.

  1. Выберите нижний ящик и выберите Добавить элемент диаграммы на Chart Дизайн вкладки.
  2. Выберите « Панели ошибок» и выберите « Дополнительные параметры панели ошибок» . Откроется меню « Форматировать ошибки» .

    Снимок экрана: дополнительные параметры панели ошибок

  3. Выберите « Минус» в разделе « Направление» в « Панелях ошибок» .

    Снимок экрана "Минус" в параметрах "Направление в панелях ошибок".

  4. Выберите Custom и выберите Specify Value в разделе суммы ошибок . Откроется диалоговое окно « Пользовательские панели ошибок» .

    Снимок экрана: диалоговое окно "Пользовательские панели ошибок"

  5. Удалите содержимое поля « Положительное значение ошибки» . Выберите нижние значения на листе и нажмите « ОК», чтобы закрыть окно « Пользовательские панели ошибок» .

Отформатируйте коробку и диаграмму с усами в Excel

Создав диаграмму, используйте инструменты форматирования диаграммы Excel, чтобы

  1. Выберите « Заголовок диаграммы» и введите заголовок, который вы хотите отобразить для диаграммы.

    Снимок экрана с заголовком диаграммы

  2. Щелкните правой кнопкой мыши одно из полей на диаграмме и выберите « Форматировать ряд данных», чтобы открыть панель « Форматировать ряд данных» .

    Снимок экрана: форматирование ряда данных в контекстном меню

  3. Увеличьте или уменьшите ширину промежутка, чтобы контролировать расстояние между ячейками.

    Скриншот ширины зазора

  4. Выберите Показать внутренние точки, чтобы отобразить точки данных между двумя линиями усов.

    Скриншот шоу Inner Points

  5. Выберите Показать точки выброса, чтобы отобразить выбросы ниже или выше линий усов.
  6. Выберите Показать средние маркеры, чтобы отобразить средний маркер ряда данных.
  7. Выберите Показать среднюю линию, чтобы отобразить линию, соединяющую средние значения полей в серии данных.
  8. Выберите метод для расчета кварталов :
    • Медиана включена  в включена в расчете , если количество значений в данном нечетно.
    • Исключительные средний  будет исключен из расчета , если есть нечетное число значений в данных.

    Скриншот Inclusive Median

  9. Выберите следующее поле на диаграмме, чтобы настроить его на панели « Форматировать ряд данных» и повторите для всех остальных полей.

Изменить или изменить внешний вид поля и графика Whisper

Чтобы внести изменения в внешний вид диаграммы в виде рамки и вискера, выберите любую область диаграммы, а затем выберите « Дизайн диаграммы» или « Инструменты дизайна» на вкладке « Инструменты диаграммы » в зависимости от используемой версии Excel.

 

Зачем вам боксплот?

Сегодня поговорим про боксплоты и зачем они вам нужны. Боксплоты (box plots), которые переведены на русский как “ящик с усами” или “диаграмма размаха”. Ящик с усами для меня вообще что-то странное, поэтому я почти всегда называют их боксплоты. Придумал этот график Джон Тьюки еще в 70-е. Людям, хоть чуть знакомым со статистикой, его имя явно знакомо. А еще он придумал слова software и bit, ну и box plot разумеется.

Боксплот сделан для того, чтобы показывать распределение, но график уникальный, потому что помимо распределения он показывает медиану, квартили, минимум, максимум и выбросы. Неплохо для одного-то графика, да? Где, что находится можно посмотреть на картинке.

Зачем он вам? Это один из немногих графиков, позволяющий показать выбросы, а это то, что очень сильно влияет на ваи графики. На всякий случай напомню, что выбросы — это значения, очень сильно выделяющиеся из всей остальной массы ваших данных. А теперь представьте барчарт, который бы эти выбросы просто сложил. И вот покажу вам немного переделанный пример применения боксплотов, с которым я сама столкнулась и не дала их в обиду!

Допустим у вас есть контент-план (как у нормальной группы, не как у меня). И в нем у вас есть три типа постов, которые вы делаете, допустим: новости, шуточки и обзоры графиков. По ним собирается определенное количество лайков с каждого, и вы знаете, что новости обычно получают 5–7 лайков, шуточки чуть больше, а обзоры “не заходят” (только за редким исключением). Вот так это выглядело бы на боксплоте. Медианное количество лайков у новостей — 5, у шуточек — 6, а у обзоров — 2. А теперь смотрим на часть обзоров и видим сверху выбросы, две замечательные точки, которые говорят нам о том, что есть некоторые обзоры, которые “выстреливают” куда лучше остального контенте. То есть обзоры в принципе идут так себе, но если написать что-то полезное, то лайков соберете больше, чем с шуточек. Таким образом, вы увидели то, чего не увидели бы, не посмотрев на выбросы, и решили бы, что обзоры просто не очень и надо от них отказаться. А на самом деле, нужно понять, что это за выбросы и про что в выбросных постах написано.

На картинке есть еще пример, как из этого выглядел бы барчарт по сумме или даже среднему количеству лайков. Так что не бойтесь использовать разные графики, если они способны показать гораздо больше. Возможно, вам придется потратить время на их объяснение, но вы сможете увидеть то, чего не видели прежде

Диаграмма «ящик с усами» (boxplot) в Excel 2016

Excel 2016, как известно, обогатился новыми типами диаграмм. Одна такая, которая диаграмма Парето, уже была показана. В этот раз рассмотрим другую, чисто статистическую. Называется «ящик с усами» или «коробчатая диаграмма» (box-and-whiskers plot или boxplot).

Раньше я такие видел только в специализированных ПО, типа STATISTICA, и для того, чтобы нарисовать подобную диаграмму в Excel, нужно было изрядно потрудиться. Теперь она есть в стандартном наборе Excel.

Диаграмма ящик с усами на ленте Excel 2016

Зачем нужна такая диаграмма? Допустим, есть выборка для анализа. А еще лучше несколько выборок, которые нужно сравнить. Для этого рассчитывают различные показатели. Однако к любому расчету всегда хочется добавить наглядности, чтобы мозг перешел в режим образного представления, а не довольствовался сухими цифрами и формулами. Поэтому основные характеристики ловко изображают на рисунке. Отличным вариантом будет как раз диаграмма «ящик с усами».

Пример двух выборок на диаграмме ящик с усами

На рисунке показан формат по умолчанию. Как видно, сравниваются две выборки путем изображения двух «ящиков с усами».

Что здесь что обозначает?

Крестик посередине – это среднее арифметическое по выборке.

Линия чуть выше или ниже крестика – медиана.

Нижняя и верхняя грань прямоугольника (типа ящика) соответствует первому и третьему квартилю (значениям, отделяющим ¼ и ¾ выборки). Расстояние между 1-м и 3-м квартилем – это межквартильный размах (или расстояние).

Горизонтальные черточки на конце «усов» – максимальное и минимальное значение (без учета выбросов, см. ниже).

Отдельные точки – это выбросы, которые показываются по умолчанию. Если значение выходит за пределы 1,5 межквартильных размаха от ближайшего квартиля, то оно считается аномальным. Их можно скрыть (см. ниже настройки).

Во всей красе «ящик с усами» проявляется при сравнении выборок, в которых данные делятся на категории. Допустим, провели некоторый эксперимент среди мужчин и женщин. Есть данные до и после эксперимента по обоим полам. Для анализа потребуется вычислить различные показатели. А если к этому добавить диаграмму «ящик с усами», то результат будет весьма наглядным.

Анализ выборок с категориями на диаграмме ящик с усами

Отлично видно, что после проведения эксперимента данные по мужчинам в целом уменьшились, а данные среди женщин наоборот, увеличились. Это не значит, что выборки больше не нужно анализировать (сравнивать, проверять гипотезы и т.д.). Но наглядность сильно улучшает понимание. Перейдем к настройкам.

Настройки диаграммы «ящик с усами»

Общий вид диаграммы настраивается стандартно. Можно менять цвет, добавлять подписи и т.д. Для этого есть две контекстные вкладки на ленте (Конструктор и Формат). Но есть настройки, предназначенные специально для этой диаграммы.

Выбираем какой-либо ряд и жмем Ctrl+1. Либо два раза кликаем по какому-нибудь «ящику». Можно через правую кнопку Формат ряда данных…. Справа вылазит панель настроек.

Панель настроек для диаграммы ящик с усами

Рассмотрим по порядку.

Боковой зазор – регулирует ширину ящиков и расстояние между ними.

Показывать внутренние точки. Если поставить галочку, то на оси, где расположены «усы», точками будут показаны все значения. Так хорошо видно распределение внутри групп.

Все точки на диаграмме ящик с усами

Показывать точки выбросов – отражать экстремальные значения.

Выбросы

Выбросы – это точки, выходящие за пределы 1,5 межквартильных размаха.

Показать средние метки – среднее арифметическое (крестики). Стоят по умолчанию, но можно скрыть.

Показать среднюю линию – только для различных категорий. Показывает изменения по категориям.

Изменения в категориях

Если добавить линии, то изменения после эксперимента станут видны еще лучше. В справке написано, что соединяются медианы, но на графике почему-то соединяются средние. Чудеса.

Инклюзивная медиана или эксклюзивная медиана. Инклюзивная медиана включает в «ящик» квартильные значения , а эксклюзивная медиана не включает. При выборе «эксклюзивной медианы» верх и низ «ящика» соответствует средней между квартильным и следующим (от центра) значением. По умолчанию стоит «эксклюзивная». Пусть стоит дальше. Причем тут медиана, вообще не понял, – речь ведь про квартиль. Думал, криво перевели, но в английской версии те же названия. В общем, здесь лучше ничего не менять.

Своевременное использование диаграммы «ящик-усы» может дать весьма ценную и наглядную информацию. Аналитику, который использует специализированные программы или трудоемкие настройки Excel, будет очень приятно иметь такую диаграмму под рукой.

Boxplots: Все, что вам нужно знать

Boxplots Используйте квартилы, чтобы показать, как распределен заданные данные. Нахождение распространения наших данных является неотъемлемой частью исследования анализа данных (EDA). Для этого у нас есть некоторые существующие инструменты, такие как Гистограммы и Плотность графиков Отказ

Но Boxplots предлагают некоторые серьезные преимущества за этими двумя.

Boxplots Упакуйте дополнительную информацию в очень маленькой поверхности и могут быть полезны при сравнении двух или более переменных на одном графике.

В этой статье мы узнаем, какие баллоны все о том, что их использование и как реализовать boxplot с помощью python.

Интерпретация бокса

Boxplots отображают распределение данных на основе пяти сводных статистических данных, а именно:

  • Первый квартиль (Q1)
  • Третий квартиль (Q3)
  • минимально
  • максимум
  • посредственность

Он фокусируется на диапазоне значений в распределении.

1. Резюме предоставляется BoxPlots

  • Медиана: Медиана – это среднее количество двух чисел. Это среднее значение набора данных.
  • Первый квартиль (Q1) : Первый квартиль – это медиана данных указывает на левый медиана. Это также известно как 25-е место
  • Третий квартиль (Q3): Третий квартиль – это медиана данных о том, как правильно медиана.
  • Межструйный диапазон (IQR): Q3 – Q1 или данные между 25-го процентилем до 75-го процентиля.
  • Минимум: Q1 -1.5 * IQR (исключая выбросы)
  • Максимум: Q3 + 1.5 * IQR (исключая выбросы)

2. Выбросы

Boxplots действительно хороши в выходе в предоставленные данные. Наиболее распространенным методом для точечных выбросов с BoxPlots является 1.5 X IQR Правило Отказ

Любая точка данных меньше, чем q1 – 1.5xiqr и любая точка данных, превышающая Q3 + 1.5xiqr, считается выбросом.

Реализация боксов с Python

Boxplots могут быть построены с использованием многих библиотек поручения. Давайте проверим, как мы можем создавать Boxplots, используя Python.

Набор данных, который мы будем использовать, – это набор набора Titian, чтобы продемонстрировать построение, вы можете скачать DataSet здесь Отказ

1. Использование панда

Пандас иметь boxplot Метод вызывается dataframe Что просто требует столбцов, которые нам нужно построить в качестве входного аргумента.

Если наши данные имеют категорические значения в нем I.e. Gender и т. Д. Тогда Pandas может создавать boxplot на основе каждой категории. Давайте посмотрим, как это сделать.

Мы также можем пройти список более одного столбца для группировки данных на основе предоставленных столбцов, а затем создание блоков.

Когда NOTCH установлено значение TRUE, мы получаем выемки на BoxPlot, который показывает доверительные интервалы для медианного значения, по умолчанию он устанавливается на доверительный интервал 95%.

Использование boxplot Способ набора данных становится действительно быстрым, чтобы визуализировать баллоны.

2. Использование Meanborn

С Seborborn мы можем построить некоторые действительно хорошие баллоны качества публикации. Давайте направимся в это.

Предположим, теперь мы хотим, которые мы хотим в возрасте людей, которые выжили и потеряли свою жизнь и сгруппировали по признаку пола, Searborn BoxPlot имеет оттенок Аргумент, который полезен для этой цели.

3. Использование MATPLOTLIB

Несмотря на то, что мы можем создавать более эстетические участки с меньшим количеством строк кода с использованием библиотеки Seborn, но Seaborn на самом деле построен на вершине Матплотлиб Отказ У Matplotlib есть способ построить коробки и удобно называться как boxplot Отказ

Давайте создадим boxplots с помощью matplotlib.

Мы можем создавать BoxPlot из нескольких переменных, передавая их в виде списка.

Заключение

В этой статье мы исследовали бакплаты, их важность и то, для чего они используются. Мы также реализовали коды, чтобы создать наши собственные баллоны с использованием библиотек Pandas, Seanborn и Matplotlib соответственно. Счастливое обучение!

 

Если вы работаете с данными в Microsoft Excel, то создание диаграммы — это чистый и привлекательный способ отображения этих данных. Excel предлагает множество типов диаграмм, от круговых диаграмм до гистограмм и линейных диаграмм.

Для работы со статистическими данными вам необходим блочный график и диаграмма вискера. Если вы никогда не делали этого раньше, мы покажем вам, как создать диаграмму с усечением в Excel, затем дважды проверьте вычисления и настройте диаграмму для представления.

Что такое коробка и вискер?

График с рамками и усами, или блок-графа, представляет собой диаграмму, которая используется для отображения пятизначной сводки данных. Этот тип диаграммы хорошо подходит для отображения статистических данных, таких как школьные оценки или оценки, до и после изменений процесса или аналогичные ситуации для сравнения числовых данных.

Для получения дополнительной информации о том, когда использовать какой тип диаграммы Excel

8 типов диаграмм и графиков Excel и когда их использовать

8 типов диаграмм и графиков Excel и когда их использовать
Графика легче понять, чем текст и цифры. Графики являются отличным способом визуализации чисел. Мы покажем вам, как создавать диаграммы в Microsoft Excel и когда лучше всего их использовать.
Прочитайте больше

Посмотрите наше полезное руководство.

При определении рамочного графика, вот как объясняет это Наука о данных:

Квадратный график — это стандартизированный способ отображения распределения данных на основе сводки из пяти чисел («минимум», первый квартиль (Q1), медиана, третий квартиль (Q3) и «максимум»).

Для просмотра графика с усами в окне показан первый квартиль до третьего квартиля с линией, проходящей через центр по медиане. Усы идут от каждого квартиля до минимума или максимума.

  • минимальный: Наименьшее значение в наборе данных.
  • Первый квартиль: Среднее значение между минимумом и медианой — 25-й процентиль.
  • медиана: Среднее значение набора данных.
  • Третий квартиль: Среднее значение Медиана и Максимум — 75 процентиль.
  • максимальная: Наибольшее значение в наборе данных.

Объяснение Excel Box и сюжет Whisker

Создайте свой Microsoft Excel Box и график Whisker

Как и с любым другим типом диаграммы или графика в Excel, все начинается с ваших данных. Откройте книгу и электронную таблицу в Excel, содержащую ваш набор данных. Затем, следуйте инструкциям ниже, чтобы создать коробку и усы.

  1. Выберите ваши данные, Либо щелкните первую ячейку, удерживая нажатой кнопку мыши, затем перетащите остальные ячейки или нажмите верхнюю левую ячейку, удерживая нажатой клавишу сдвиг ключ, а затем нажмите на нижнюю правую ячейку.
  2. Нажмите на Вставить
  3. в Диаграмма раздел на ленте, нажмите Вставить статистическую диаграмму и выберите Коробка и вискер,

Ваша новая коробка и сюжет усика появятся прямо в вашей таблице.

Excel Box и Whisker Plot в электронной таблице

Дважды проверьте данные вашего ящика

Вы можете положиться на Excel, чтобы построить ваши данные с правильными числами. Однако, если вы предпочитаете перепроверять эти цифры или просто нуждаетесь в них сами, вы можете сделать это довольно легко с помощью встроенных функций Excel.

Набор данных Excel Box и Whisker Plot

Вернитесь к своему набору данных и следуйте этим инструкциям, чтобы найти минимум, первый квартиль, медиану, третий квартиль и максимум для вашего набора данных.

Минимальные, Медианные и Максимальные функции

  1. Начните с нажатия на ячейку, где вы хотите начальную функцию. Начнем с минимальный,
  2. Нажмите на Формулы
  3. выберите Дополнительные функции от ленты и наведите курсор мыши статистическая,
  4. Во всплывающем окне прокрутите список вниз до MIN и выберите его.
  5. Когда функция появляется в ячейке, вы можете перетаскивать свой набор данных или вводить метки ячейки, печатая их в Аргументы функции окно, которое также появляется и нажмите Хорошо,

Функция Excel Box и Whisker Plot Min.

Теперь просто сделайте то же самое для Median и Maximum, выбрав MEDIAN и MAX в качестве функций в списке.

Функция Quartile

  1. Нажмите на ячейку, где вы хотите первый квартиль
  2. Нажмите на Формулы
  3. выберите Дополнительные функции от ленты и наведите курсор мыши статистическая,
  4. Прокрутите вниз в списке, чтобы EXC и выберите его.
  5. Когда функция появляется в ячейке, также появляются аргументы функций. Выберите набор данных, как вы это сделали с MIN, или введите его в поле Array в окне аргументов.
  6. Также в окне аргументов введите номер квартили в поле кварта В этом случае это будет номер 1 для первого квартиля.
  7. Нажмите Хорошо,

Квартальная функция Excel Box и Whisker Plot

Когда вы добавите функцию для третьего квартиля, вы выполните те же действия, что и выше, но введите число 3 в кварта коробка.

Настройте свой Microsoft Excel Box и график Whisker

Теперь, когда у вас есть свой график и усик, вы можете настроить его с помощью различных опций, как и другие диаграммы в Excel.

Как сделать диаграмму в Excel

Как сделать диаграмму в Excel
Никогда не создавал диаграмму в Excel? Вот как сделать диаграмму в Excel и настроить ее, используя наиболее распространенные типы диаграмм.
Прочитайте больше

, Выберите свой блок-график, и в правом верхнем углу появится небольшое меню с кнопками для Элементы диаграммы а также Стили диаграмм,

Элементы диаграммы

Эта область позволяет вам выбрать элементы диаграммы, которые вы хотите отобразить, такие как оси, заголовок диаграммы, метки данных и легенда. А некоторые элементы позволяют углубиться еще дальше. Например, если вы хотите легенду, вы можете выбрать местоположение, которое должно отображаться на диаграмме.

Элементы таблицы Excel Box и Whisker Plot Chart

Стили диаграмм

Этот раздел позволяет изменить внешний вид диаграммы. Вы можете выбрать из различных стилей и цветовых схем, чтобы придать вашей диаграмме немного шума. Если навести курсор мыши на любой стиль или цветовую тему, вы увидите предварительный просмотр того, как будет выглядеть изображение в рамке. Когда вы найдете то, что вам нравится, просто нажмите, чтобы выбрать его, и вы сразу увидите изменения в своем графике.

Excel Box и стили графической схемы Whisker

Перемещение или изменение размера вашей диаграммы

Чтобы переместить свой график и график в другое место в электронной таблице, выберите его, а когда появится четырехсторонняя стрелка, перетащите диаграмму на новое место.

Чтобы изменить размер диаграммы, выберите ее, а затем перетащите один из кругов на границе прямоугольника в направлении, в котором вы хотите его развернуть.

Excel Box и Whisker Plot Перемещение или изменение размера

В то время как вы, безусловно, можете найти в Интернете средство для поиска коробок и усов, что может быть лучше для его создания, чем с помощью Microsoft Excel и его гибких функций.

И если вы часто работаете с Excel и хотели бы сделать круговую диаграмму

Как создать круговую диаграмму в Microsoft Excel

Как создать круговую диаграмму в Microsoft Excel
Каждый может создать простую круговую диаграмму. Но вы можете отформатировать его до совершенства? Мы проведем вас через процесс, один шаг за раз.
Прочитайте больше

чтобы отобразить свои данные, взгляните на наш учебник специально для этого типа диаграммы.

Узнайте больше о: Microsoft Excel, Microsoft Office 2016, Microsoft Office 2019, Microsoft Office 365, Советы по Microsoft Office.

Как объединить файлы Microsoft Outlook PST: 5 простых методов Превратить Microsoft Excel в налоговый калькулятор с помощью этих шаблонов

Предположим, вы хотите сравнить следующие показатели за несколько кварталов:

— результаты продаж по сотрудникам
— количество закрытых вакансий на 1 рекрутера
— средний срок закрытия вакансий по категориям должностей
— уровень выработки на одного рабочего.

Для этого вы используем среднее значение. Если вы читали мою статью «Что лучше использовать при анализе данных: среднее или медиану?», то вы знаете, что лучше использовать медиану. Но достаточно ли этих данных, чтобы оценить изменения в показателях за период?

Данные имеют свое распределение относительно медианы. Например, в компании есть 15 секретарей по всем филиалам. Вы хотите их всех обучить методу слепой печати. До обучения вы замеряете скорость их печати и записываете результаты в таблицу.

Медиана скорости печати до обучения – 189 символов в минуту. Это значит, что 50% сотрудников печатает со скоростью меньше и 50% — больше этого значения.

Обучив их методу слепой печати, вы снова замеряете их результаты и записываете результаты в третий столбец.

Медиана скорости печати после обучения – 217. То есть скорость печати выросла на 15%. Значит ли это, что каждый секретарь стал печатать быстрее на 15%? Давайте проверим, как улучшились показатели печати.

Чтобы проверить эффективность обучения, мы добавим еще 2 столбца: изменения в символах в минуту и в процентах.

Посчитаем медиану скорости печати по каждому секретарю по столбцу «Изменения в, %». Она составит 9,4% Как видите, разница между 9,4% и между полученными ранее 15% существенна.

Давайте посмотрим распределение внутри данных и сравним данные между двумя группами «До обучения» и «После обучения». В этом нам поможет диаграмма «Ящик с усами».

Как построить диаграмму «Ящик с усами»?

Чтобы построить диаграмму «Ящик с усами» выполняем следующие действия:
1) Выделяем созданную таблицу.
2) На вкладке Вставка в группе Диаграммы нажимаем кнопку Вставка статистической диаграммы.
3) Выбираем диаграмму «Ящик с усами».

В итоге мы получим такую диаграмму.

Что означает диаграмма «Ящик с усами»?

Данную диаграмму я рекомендую использовать, если вы хотите отразить распределение данных, увидеть выбросы, медиану и величину размаха, а также сравнить распределение данных нескольких наборов данных.

«Ящик» – расстояние от первого до третьего квартиля, центральная полоса – медиана.
Крестик – среднее значение.
«Усы» – это верхняя и нижняя граница данных без учета выбросов.
Точка за пределами зеленого «ящика» – это выброс.

При анализе выбросы не учитываются. Вы можете прочитать статью «Как выбросы влияют на расчет среднего значения в выборке и как их убрать?» о том, как определять и удалять выбросы.

Как анализировать диаграмму «Ящик с усами»?

Результаты измерения скорость печати сотрудников «До обучения» (фиолетовый «ящик») неоднородны, и в компании есть секретари как с высоким навыком печати, так и с низким.

Давайте внимательнее их рассмотрим.

В группе «До обучения» медиана скорости печати составляла 189 символов в минуту. Это значит, что 50% сотрудников печатали медленнее и 50% сотрудников – быстрее 189 символов в минуту. После обучения медиана поднялась до 217 символов в минуту.

При этом границы третьего квартиля фиолетового и зеленого «ящиков» практически равны. Это означает, что медиана выросла за счет увеличения скорости печати отстающих сотрудников. При этом сотрудники, которые показывали скорость печати выше медианы, существенно не улучшили своих результатов. При этом верхний «ус» зеленого ящика сократился и появился выброс. То есть высокий результат одного секретаря в группе «До обучения» перестал учитываться в группе «После обучения», так как стал существенно отличаться от результатов остальных сотрудников и стал считаться выбросом.

Разброс показателей скорости печати группы «До обучения» составлял от 172 до 331 символа в минуту, а «После обучения» — от 201 до 279 без учета выброса 358 символов в минуту.

Выводы:
1. Обучение оказалось эффективных для низкорезультативных сотрудников. Теперь же скорость печати секретарей более однородна.
2. Чтобы улучшить показатели, находящиеся выше медианы, нужно пересмотреть программу обучения.

Глядя на данные в таблице, мы не смогли бы увидеть и сделать эти выводы. А визуализация данных с помощью «Ящика с усами» дает наглядное представление, за счет чего выросла медиана скорости печати.

Область применения метода парных выборок — «До» и «После»

Рассмотренный метод оценки изменения показателей «До» и «После» называется методом парных или связанных выборок. Он решает задачу оценки фактического изменения показателей без учета влияния прочих факторов. В примере не было факторов, влияющих на изменение скорости печати секретарей. Например, компания в процессе обучения сотрудников могла установить эргономичные клавиатуры, которые могли повлиять на скорость печати.

В следующей статье я опишу, как очистить результаты обучения от прочих факторов.

Мы разобрали пример работы с генеральной совокупностью, то есть измеряли скорость печати всех секретарей компании. При работе с выборкой (например, обучении секретарей только одного филиала), необходимо проверить значимость изменений с помощью статистических критериев.

Подведем итог и составим алгоритм действий:

Если мы работаем с генеральной совокупностью:

1. Определяем показатели для измерения
2. Замеряем показатели в группах, за несколько периодов или «До» и «После» какого-то события
3. Считаем медиану, если работаем со средними значениями – убираем выбросы
4. Строим диаграмму «Ящик с усами»
5. Анализируем распределение данных в группах, по периодам
6. Оцениваем, насколько изменения существенны
7. Делаем выводы.

deynekina.ru

Понравилась статья? Поделить с друзьями:
  • Ящик с усами в excel где
  • Ящик с усами в excel выбросы
  • Ящик с усами в excel 2010
  • Ящик с усами excel 2013
  • Ячейку плюс ячейка в excel