Excel как очистить выборку

Содержание:

  1. Что такое выбросы и почему их важно найти?
  2. Найдите выбросы путем сортировки данных
  3. Поиск выбросов с помощью квартильных функций
  4. Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ
  5. Как правильно обращаться с выбросами
  6. Удалить выбросы
  7. Нормализовать выбросы (отрегулировать значение)

При работе с данными в Excel у вас часто возникают проблемы с обработкой выбросов в наборе данных.

Выбросы довольно часто встречаются во всех видах данных, и важно идентифицировать и обрабатывать эти выбросы, чтобы убедиться, что ваш анализ правильный и значимый.

В этом уроке я покажу вам как найти выбросы в Excel, а также некоторые методы, которые я использовал в своей работе для обработки этих выбросов.

Что такое выбросы и почему их важно найти?

Выброс — это точка данных, которая выходит за рамки других точек данных в наборе данных. Если у вас есть выброс в данных, это может исказить ваши данные, что может привести к неверным выводам.

Приведу простой пример.

Допустим, 30 человек едут на автобусе из пункта назначения A в пункт назначения B. Все люди относятся к одной весовой группе и группе доходов. Для целей этого руководства давайте предположим, что средний вес составляет 220 фунтов, а средний годовой доход — 70 000 долларов.

Сейчас где-то посередине нашего маршрута автобус останавливается, и в него садится Билл Гейтс.

Как вы думаете, как это повлияет на средний вес и средний доход людей в автобусе?

Хотя средний вес вряд ли сильно изменится, средний доход пассажиров автобуса резко вырастет.

Это связано с тем, что доход Билла Гейтса является исключением в нашей группе, и это дает нам неправильную интерпретацию данных. Средний доход каждого пассажира автобуса составит несколько миллиардов долларов, что намного превышает реальную стоимость.

При работе с фактическими наборами данных в Excel вы можете иметь выбросы в любом направлении (например, положительный выброс или отрицательный выброс).

И чтобы убедиться, что ваш анализ верен, вам нужно каким-то образом идентифицировать эти выбросы, а затем решить, как лучше всего их лечить.

Теперь давайте рассмотрим несколько способов найти выбросы в Excel.

Найдите выбросы путем сортировки данных

С небольшими наборами данных быстрый способ определить выбросы — просто отсортировать данные и вручную просмотреть некоторые значения в верхней части отсортированных данных.

А так как выбросы могут быть в обоих направлениях, убедитесь, что вы сначала отсортировали данные в порядке возрастания, а затем в порядке убывания, а затем перебрали самые верхние значения.

Позвольте мне показать вам пример.

Ниже у меня есть набор данных, в котором у меня есть продолжительность звонков (в секундах) для 15 звонков в службу поддержки.

Ниже приведены шаги по сортировке этих данных, чтобы мы могли идентифицировать выбросы в наборе данных:

  1. Выберите заголовок столбца, который вы хотите отсортировать (в этом примере ячейка B1).
  2. Перейдите на вкладку «Главная«
  3. В группе «Редактирование» щелкните значок «Сортировка и фильтр».
  4. Щелкните Custom Sort (Пользовательская сортировка).
  5. В диалоговом окне «Сортировка» выберите «Продолжительность» в раскрывающемся списке «Сортировка по» и «От наибольшего к наименьшему» в раскрывающемся списке «Порядок». 
  6. Нажмите ОК

Вышеупомянутые шаги сортируют столбец продолжительности звонка с наивысшими значениями вверху. Теперь вы можете вручную просмотреть данные и посмотреть, есть ли выбросы.

В нашем примере я вижу, что первые два значения намного выше остальных значений (а два нижних намного ниже).

Примечание. Этот метод работает с небольшими наборами данных, где вы можете вручную сканировать данные. Это не научный метод, но он хорошо работает

Поиск выбросов с помощью квартильных функций

Теперь давайте поговорим о более научном решении, которое поможет вам определить, есть ли какие-то выбросы.

В статистике квартиль составляет четверть набора данных. Например, если у вас есть 12 точек данных, то первый квартиль будет тремя нижними точками данных, второй квартиль будет следующими тремя точками данных и так далее.

Ниже приведен набор данных, по которому я хочу найти выбросы. Для этого мне нужно будет вычислить 1-й и 3-й квартили, а затем с его помощью вычислить верхний и нижний предел.

Ниже приведена формула для вычисления первого квартиля в ячейке E2:
= QUARTILE.INC ($ B $ 2: $ B $ 15,1)

и вот тот, который вычисляет третий квартиль в ячейке E3:
= QUARTILE.INC ($ B $ 2: $ B $ 15,3)

Теперь я могу использовать два вышеупомянутых вычисления, чтобы получить межквартильный размах (который составляет 50% наших данных в пределах 1-го и 3-го квартилей).
= F3-F2

Теперь мы будем использовать межквартильный диапазон, чтобы найти нижний и верхний предел, который будет содержать большую часть наших данных.

Все, что выходит за эти нижние и верхние пределы, будет считаться выбросом.

Ниже приведена формула для расчета нижнего предела:
= Квартиль1 - 1,5 * (Межквартильный диапазон)
который в нашем примере становится:
= F2-1,5 * F4

И формула для расчета верхнего предела:
= Квартиль3 + 1,5 * (Межквартильный диапазон)
который в нашем примере становится:
= F3 + 1,5 * F4

Теперь, когда у нас есть верхний и нижний предел в нашем наборе данных, мы можем вернуться к исходным данным и быстро определить те значения, которые не лежат в этом диапазоне.

Быстрый способ сделать это — проверить каждое значение и вернуть ИСТИНА или ЛОЖЬ в новом столбце.

Я использовал приведенную ниже формулу ИЛИ, чтобы получить ИСТИНА для тех значений, которые являются выбросами.
= ИЛИ (B2 $ F $ 6)

Теперь вы можете фильтровать столбец Outlier и отображать только те записи, для которых значение TRUE.

Кроме того, вы также можете использовать условное форматирование, чтобы выделить все ячейки, в которых значение TRUE.

Примечание: Хотя это более распространенный метод поиска выбросов в статистике. Я считаю, что этот метод немного непригоден для использования в реальных сценариях. В приведенном выше примере нижний предел, рассчитанный по формуле, равен -103, в то время как набор данных, который у нас есть, может быть только положительным. Таким образом, этот метод может помочь нам найти выбросы в одном направлении (высокие значения), он бесполезен при выявлении выбросов в другом направлении.

Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ

Если вы работаете с большим количеством данных (значения в нескольких столбцах), вы можете извлечь 5 или 7 наибольших и наименьших значений и посмотреть, есть ли в них выбросы.

Если есть какие-либо выбросы, вы сможете их идентифицировать, не просматривая все данные в обоих направлениях.

Предположим, у нас есть приведенный ниже набор данных, и мы хотим знать, есть ли какие-либо выбросы.

Ниже приведена формула, которая даст вам наибольшее значение в наборе данных:
= БОЛЬШОЙ ($ B $ 2: $ B $ 16,1)
Точно так же второе по величине значение будет равно
= БОЛЬШОЙ ($ B $ 2: $ B $ 16,1)
Если вы не используете Microsoft 365, в которой есть динамические массивы, вы можете использовать приведенную ниже формулу, и она даст вам пять наибольших значений из набора данных с помощью одной формулы:
= БОЛЬШОЙ ($ B $ 2: $ B $ 16; СТРОКА ($ 1: 5))

Точно так же, если вам нужны 5 наименьших значений, используйте следующую формулу:
= МАЛЕНЬКИЙ ($ B $ 2: $ B $ 16; СТРОКА ($ 1: 5))
или следующее, если у вас нет динамических массивов:
= МАЛЕНЬКИЙ ($ B $ 2: $ B $ 16,1)
Когда у вас есть эти значения, очень легко обнаружить любые выбросы в наборе данных.

Хотя я решил извлечь 5 наибольших и наименьших значений, вы можете выбрать 7 или 10 в зависимости от размера вашего набора данных.

Я не уверен, является ли это приемлемым методом для поиска выбросов в Excel или нет, но это метод, который я использовал, когда мне приходилось работать с большим количеством финансовых данных на моей работе несколько лет назад. По сравнению со всеми другими методами, описанными в этом руководстве, я считаю этот наиболее эффективным.

Как правильно обращаться с выбросами

До сих пор мы видели методы, которые помогут нам найти выбросы в нашем наборе данных. Но что делать, если вы знаете, что есть выбросы.

Вот несколько методов, которые вы можете использовать для обработки выбросов, чтобы ваш анализ данных был правильным.

Удалить выбросы

Самый простой способ удалить выбросы из набора данных — просто удалить их. Таким образом, это не исказит ваш анализ.

Это более жизнеспособное решение, когда у вас большие наборы данных и удаление пары выбросов не повлияет на общий анализ. И, конечно же, перед удалением данных обязательно создайте копию и выясните, что вызывает эти выбросы.

Нормализовать выбросы (отрегулировать значение)

Нормализация выбросов — это то, что я делал, когда работал полный рабочий день. Для всех значений выбросов я бы просто изменил их на значение, немного превышающее максимальное значение в наборе данных.

Это гарантирует, что я не удаляю данные, но в то же время не позволяю им искажать мои данные.

Чтобы дать вам реальный пример, если вы анализируете маржу чистой прибыли компаний, где большинство компаний находится в пределах от -10% до 30%, а есть несколько значений, превышающих 100%, я просто изменит эти выбросы на 30% или 35%.

Итак, вот некоторые из методов, которые вы можете использовать в Excel, чтобы найти выбросы.

После того, как вы определили выбросы, вы можете углубиться в данные и посмотреть, что их вызывает, и в то же время выбрать один из методов обработки этих выбросов (который может удалить их или нормализовать, изменив значение)

Надеюсь, вы нашли этот урок полезным.

В процессе анализ данных обычно прослеживается закономерность в том, что все значения колеблются возле определенного центрального уровня – медианы. Хотя очень часто некоторые из них выпадают далеко от центра. Такие значения называются статистическими выбросами (находятся далеко за прогнозируемым диапазоном). Статистические выбросы могут запачкать результаты статистического анализа, что может приводить к фальшивым или ошибочным выводам касающихся данных.

Как определить статистические выбросы и сделать выборку для их удаления в Excel

Для экспонирования и выделения цветом значений статистических выбросов от медианы можно использовать несколько простых формул и условное форматирование.

Первым шагом в поиске значений выбросов статистики является определение статистического центра диапазона данных. С этой целью необходимо сначала определить границы первого и третьего квартала. Определение границ квартала – значит разделение данных на 4 равные группы, которые содержат по 25% данных каждая. Группа, содержащая 25% наибольших значений, называется первым квартилем.

Границы квартилей в Excel можно легко определить с помощью простой функции КВАРТИЛЬ. Данная функция имеет 2 аргумента: диапазон данных и номер для получения желаемого квартиля.

В примере показанному на рисунке ниже значения в ячейках E1 и E2 содержат показатели первого и третьего квартиля данных в диапазоне ячеек B2:B19:

определить статистические выбросы.

Вычитая от значения первого квартиля третьего, можно определить набор 50% статистических данных, который называется межквартильным диапазоном. В ячейке E3 определен размер межквартильного диапазона.

В этом месте возникает вопрос, как сильно данное значение может отличаться от среднего значения 50% данных и оставаться все еще в пределах нормы? Статистические аналитики соглашаются с тем, что для определения нижней и верхней границы диапазона данных можно смело использовать коэффициент расширения 1,5 умножив на значение межквартильного диапазона. То есть:

  1. Нижняя граница диапазона данных равна: значение первого квартиля – межкваритльный диапазон * 1,5.
  2. Верхняя граница диапазона данных равна: значение третьего квартиля + расширенных диапазон * 1,5.

Как показано на рисунке ячейки E5 и E6 содержат вычисленные значения верхней и нижней границы диапазона данных. Каждое значение, которое больше верхней границы нормы или меньше нижней границы нормы считается значением статистического выброса.

Чтобы выделить цветом для улучшения визуального анализа данных можно создать простое правило для условного форматирования.



Выборка статистических выбросов с помощью квартилей в Excel

Чтобы создать правило для условного форматирования по выше описанным инструкциям, сделайте следующее:

  1. Выделите целевой диапазон ячеек (в данном примере B2:B19) и выберите инструмент «ГЛАВНАЯ»-«Условное форматирование»-«Создать правило». Появится окно «Создание правила форматирования ячеек», как показано ниже на рисунке:
  2. Создать правило.

  3. Из списка в верхней части окна выберите опцию «Использовать формулу для определения форматируемых ячеек». Данная опция служит для анализа значений в ячейках выделенного диапазона, с помощью определенной формулы с логическим выражением. Если в результате вычислений формулой, по какому-то из значений будет возвращено логическое значение ИСТИНА, тогда в этой ячейке будет применятся условное форматирование.
  4. В полю для введения формулы введите логическое выражение представленное на данном шаге. Обратите внимание на то, что в формуле используется относительная ссылка на целевую ячейку B2. А ссылки на верхнюю и нижнюю границу в ячейках $E$5 и $E$6 являются абсолютными. Два логических выражения помещены внутрь логической функции ИЛИ в качестве аргументов. Если значение целевой ячейки будет больше, чем верхняя граница или же меньше чем нижняя граница, тогда формула возвращает значение ИСТИНА и автоматически применяется условное форматирование.

    =ИЛИ(B2<$E$6;B2>$E$5)

  5. Нажмите на кнопку «Формат» и появится окно «Формат ячеек», в котором находятся все опции для форматирования шрифтов, границ и заливки ячеек. После указания необходимых опций форматирования подтвердите их нажатием на кнопку «ОК» на всех открытых окнах, чтобы получить готовый результат.

Формат ячеек.

В результате выделены цветом все ячейки, которые содержат значение статистического выброса от медианы.

Содержание

  • Что такое выбросы и почему их важно найти?
  • Найдите выбросы путем сортировки данных
  • Поиск выбросов с помощью квартильных функций
  • Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ
  • Как правильно обращаться с выбросами

При работе с данными в Excel у вас часто возникают проблемы с обработкой выбросов в наборе данных.

Выбросы довольно часто встречаются во всех видах данных, и важно идентифицировать и обрабатывать эти выбросы, чтобы убедиться, что ваш анализ правильный и значимый.

В этом уроке я покажу вам как найти выбросы в Excel, а также некоторые методы, которые я использовал в своей работе для обработки этих выбросов.

Что такое выбросы и почему их важно найти?

Выброс — это точка данных, которая выходит за рамки других точек данных в наборе данных. Если у вас есть выброс в данных, это может исказить ваши данные, что может привести к неверным выводам.

Приведу простой пример.

Допустим, 30 человек едут на автобусе из пункта назначения A в пункт назначения B. Все люди относятся к одной весовой группе и группе доходов. Для целей этого руководства давайте предположим, что средний вес составляет 220 фунтов, а средний годовой доход — 70 000 долларов.

Сейчас где-то посередине нашего маршрута автобус останавливается, и в него садится Билл Гейтс.

Как вы думаете, как это повлияет на средний вес и средний доход людей в автобусе?

Хотя средний вес вряд ли сильно изменится, средний доход пассажиров автобуса резко вырастет.

Это связано с тем, что доход Билла Гейтса является исключением в нашей группе, и это дает нам неправильную интерпретацию данных. Средний доход каждого пассажира автобуса составит несколько миллиардов долларов, что намного превышает реальную стоимость.

При работе с фактическими наборами данных в Excel вы можете иметь выбросы в любом направлении (например, положительный выброс или отрицательный выброс).

И чтобы убедиться, что ваш анализ верен, вам нужно каким-то образом идентифицировать эти выбросы, а затем решить, как лучше всего их лечить.

Теперь давайте рассмотрим несколько способов найти выбросы в Excel.

Найдите выбросы путем сортировки данных

С небольшими наборами данных быстрый способ определить выбросы — просто отсортировать данные и вручную просмотреть некоторые значения в верхней части отсортированных данных.

А так как выбросы могут быть в обоих направлениях, убедитесь, что вы сначала отсортировали данные в порядке возрастания, а затем в порядке убывания, а затем перебрали самые верхние значения.

Позвольте мне показать вам пример.

Ниже у меня есть набор данных, в котором у меня есть продолжительность звонков (в секундах) для 15 звонков в службу поддержки.

Ниже приведены шаги по сортировке этих данных, чтобы мы могли идентифицировать выбросы в наборе данных:

  1. Выберите заголовок столбца, который вы хотите отсортировать (в этом примере ячейка B1).
  2. Перейдите на вкладку «Главная»
  3. В группе «Редактирование» щелкните значок «Сортировка и фильтр».
  4. Щелкните Custom Sort (Пользовательская сортировка).
  5. В диалоговом окне «Сортировка» выберите «Продолжительность» в раскрывающемся списке «Сортировка по» и «От наибольшего к наименьшему» в раскрывающемся списке «Порядок».
  6. Нажмите ОК

Вышеупомянутые шаги сортируют столбец продолжительности звонка с наивысшими значениями вверху. Теперь вы можете вручную просмотреть данные и посмотреть, есть ли выбросы.

В нашем примере я вижу, что первые два значения намного выше остальных значений (а два нижних намного ниже).

Примечание. Этот метод работает с небольшими наборами данных, где вы можете вручную сканировать данные. Это не научный метод, но он хорошо работает

Поиск выбросов с помощью квартильных функций

Теперь давайте поговорим о более научном решении, которое поможет вам определить, есть ли какие-то выбросы.

В статистике квартиль составляет четверть набора данных. Например, если у вас есть 12 точек данных, то первый квартиль будет тремя нижними точками данных, второй квартиль будет следующими тремя точками данных и так далее.

Ниже приведен набор данных, по которому я хочу найти выбросы. Для этого мне нужно будет вычислить 1-й и 3-й квартили, а затем с его помощью вычислить верхний и нижний предел.

Ниже приведена формула для вычисления первого квартиля в ячейке E2:

= QUARTILE.INC ($ B $ 2: $ B $ 15,1)

и вот тот, который вычисляет третий квартиль в ячейке E3:

= QUARTILE.INC ($ B $ 2: $ B $ 15,3)

Теперь я могу использовать два вышеупомянутых вычисления, чтобы получить межквартильный размах (который составляет 50% наших данных в пределах 1-го и 3-го квартилей).

= F3-F2

Теперь мы будем использовать межквартильный диапазон, чтобы найти нижний и верхний предел, который будет содержать большую часть наших данных.

Все, что выходит за эти нижние и верхние пределы, будет считаться выбросом.

Ниже приведена формула для расчета нижнего предела:

= Квартиль1 - 1,5 * (Межквартильный диапазон)

который в нашем примере становится:

= F2-1,5 * F4

И формула для расчета верхнего предела:

= Квартиль3 + 1,5 * (Межквартильный диапазон)

который в нашем примере становится:

= F3 + 1,5 * F4

Теперь, когда у нас есть верхний и нижний предел в нашем наборе данных, мы можем вернуться к исходным данным и быстро определить те значения, которые не лежат в этом диапазоне.

Быстрый способ сделать это — проверить каждое значение и вернуть ИСТИНА или ЛОЖЬ в новом столбце.

Я использовал приведенную ниже формулу ИЛИ, чтобы получить ИСТИНА для тех значений, которые являются выбросами.

= ИЛИ (B2 $ F $ 6)

Теперь вы можете фильтровать столбец Outlier и отображать только те записи, для которых значение TRUE.

Кроме того, вы также можете использовать условное форматирование, чтобы выделить все ячейки, в которых значение TRUE.

Примечание: Хотя это более распространенный метод поиска выбросов в статистике. Я считаю, что этот метод немного непригоден для использования в реальных сценариях. В приведенном выше примере нижний предел, рассчитанный по формуле, равен -103, в то время как набор данных, который у нас есть, может быть только положительным. Таким образом, этот метод может помочь нам найти выбросы в одном направлении (высокие значения), он бесполезен при выявлении выбросов в другом направлении.

Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ

Если вы работаете с большим количеством данных (значения в нескольких столбцах), вы можете извлечь 5 или 7 наибольших и наименьших значений и посмотреть, есть ли в них выбросы.

Если есть какие-либо выбросы, вы сможете их идентифицировать, не просматривая все данные в обоих направлениях.

Предположим, у нас есть приведенный ниже набор данных, и мы хотим знать, есть ли какие-либо выбросы.

Ниже приведена формула, которая даст вам наибольшее значение в наборе данных:

= БОЛЬШОЙ ($ B $ 2: $ B $ 16,1)

Точно так же второе по величине значение будет равно

= БОЛЬШОЙ ($ B $ 2: $ B $ 16,1)

Если вы не используете Microsoft 365, в которой есть динамические массивы, вы можете использовать приведенную ниже формулу, и она даст вам пять наибольших значений из набора данных с помощью одной формулы:

= БОЛЬШОЙ ($ B $ 2: $ B $ 16; СТРОКА ($ 1: 5))

Точно так же, если вам нужны 5 наименьших значений, используйте следующую формулу:

= МАЛЕНЬКИЙ ($ B $ 2: $ B $ 16; СТРОКА ($ 1: 5))

или следующее, если у вас нет динамических массивов:

= МАЛЕНЬКИЙ ($ B $ 2: $ B $ 16,1)

Когда у вас есть эти значения, очень легко обнаружить любые выбросы в наборе данных.

Хотя я решил извлечь 5 наибольших и наименьших значений, вы можете выбрать 7 или 10 в зависимости от размера вашего набора данных.

Я не уверен, является ли это приемлемым методом для поиска выбросов в Excel или нет, но это метод, который я использовал, когда мне приходилось работать с большим количеством финансовых данных на моей работе несколько лет назад. По сравнению со всеми другими методами, описанными в этом руководстве, я считаю этот наиболее эффективным.

Как правильно обращаться с выбросами

До сих пор мы видели методы, которые помогут нам найти выбросы в нашем наборе данных. Но что делать, если вы знаете, что есть выбросы.

Вот несколько методов, которые вы можете использовать для обработки выбросов, чтобы ваш анализ данных был правильным.

Удалить выбросы

Самый простой способ удалить выбросы из набора данных — просто удалить их. Таким образом, это не исказит ваш анализ.

Это более жизнеспособное решение, когда у вас большие наборы данных и удаление пары выбросов не повлияет на общий анализ. И, конечно же, перед удалением данных обязательно создайте копию и выясните, что вызывает эти выбросы.

Нормализовать выбросы (отрегулировать значение)

Нормализация выбросов — это то, что я делал, когда работал полный рабочий день. Для всех значений выбросов я бы просто изменил их на значение, немного превышающее максимальное значение в наборе данных.

Это гарантирует, что я не удаляю данные, но в то же время не позволяю им искажать мои данные.

Чтобы дать вам реальный пример, если вы анализируете маржу чистой прибыли компаний, где большинство компаний находится в пределах от -10% до 30%, а есть несколько значений, превышающих 100%, я просто изменит эти выбросы на 30% или 35%.

Итак, вот некоторые из методов, которые вы можете использовать в Excel, чтобы найти выбросы.

После того, как вы определили выбросы, вы можете углубиться в данные и посмотреть, что их вызывает, и в то же время выбрать один из методов обработки этих выбросов (который может удалить их или нормализовать, изменив значение)

Надеюсь, вы нашли этот урок полезным.

  • Редакция Кодкампа

17 авг. 2022 г.
читать 3 мин


Выброс — это наблюдение, которое лежит аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.

Мы будем использовать следующий набор данных в Excel, чтобы проиллюстрировать два метода поиска выбросов:

Связанный: Как рассчитать среднее значение, исключая выбросы в Excel

Метод 1: используйте межквартильный диапазон

Межквартильный размах (IQR) — это разница между 75-м процентилем (Q3) и 25-м процентилем (Q1) в наборе данных. Он измеряет разброс средних 50% значений.

Мы можем определить наблюдение как выброс, если оно в 1,5 раза превышает межквартильный размах, превышающий третий квартиль (Q3), или в 1,5 раза превышает межквартильный размах меньше, чем первый квартиль (Q1).

На следующем изображении показано, как рассчитать межквартильный диапазон в Excel:

Затем мы можем использовать формулу, упомянутую выше, чтобы присвоить «1» любому значению, которое является выбросом в наборе данных:

Поиск выбросов в Excel

Мы видим, что только одно значение — 164 — оказывается выбросом в этом наборе данных.

Способ 2: использовать z-показатели

Z-оценка показывает, сколько стандартных отклонений данного значения от среднего. Мы используем следующую формулу для расчета z-показателя:

z = (X — μ) / σ

куда:

  • X — это одно необработанное значение данных.
  • μ — среднее значение населения
  • σ — стандартное отклонение населения

Мы можем определить наблюдение как выброс, если его z-оценка меньше -3 или больше 3.

На следующем изображении показано, как рассчитать среднее значение и стандартное отклонение для набора данных в Excel:

Затем мы можем использовать среднее значение и стандартное отклонение, чтобы найти z-оценку для каждого отдельного значения в наборе данных:

Затем мы можем присвоить «1» любому значению, которое имеет z-оценку меньше -3 или больше 3:

Поиск выбросов в Excel с использованием z-показателей

Используя этот метод, мы видим, что в наборе данных нет выбросов.

Примечание. Иногда вместо 3 используется z-показатель 2,5. В этом случае отдельное значение 164 будет считаться выбросом, поскольку его z-показатель больше 2,5. При использовании метода z-показателя руководствуйтесь своим здравым смыслом, какое значение z-показателя вы считаете выбросом.

Как обращаться с выбросами

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение было введено правильно и что это не ошибка.

2. Удалите выброс.

Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.

3. Присвойте новое значение выбросу .

Если выброс является результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее или медиана набора данных.

Содержание

  • Способ 1: Кнопка «Удалить» в контекстном меню
  • Способ 2: Кнопка «Очистить все» в меню управления списками
  • Способ 3: Изменение типа данных ячейки
  • Вопросы и ответы

Как убрать выпадающий список в Excel

Способ 1: Кнопка «Удалить» в контекстном меню

Для удаления выпадающего списка в Excel можно обойтись без перехода в соответствующее меню, где осуществляется управление подобными элементами. Вызов подходящего для очистки инструмента выполняется и через контекстное меню, что чаще занимает гораздо меньше времени, нежели стандартный принцип удаления.

  1. Сначала отыщите в таблице выпадающий список, выделите его, а затем сделайте щелчок правой кнопкой мыши.
  2. Выбор выпадающего списка в Excel для его удаления через контекстное меню

  3. В контекстном меню найдите пункт «Удалить» и активируйте его.
  4. Кнопка для удаления выпадающего списка в Excel через контекстное меню

  5. Появится стандартное окно удаления ячеек, где укажите один из первых вариантов, отметив его маркером.
  6. Выбор варианта смещения ячеек при удалении выпадающего списка через контекстное меню в Excel

  7. После активации действия окно закроется автоматически, а вы можете ознакомиться с результатом, убедившись в отсутствии выпадающего меню.
  8. Результат удаления выпадающего списка в Excel через контекстное меню

Если вдруг оказалось, что был удален не тот список или это действие необходимо отменить по другим причинам, сразу же нажмите стандартное сочетание клавиш Ctrl + Z и список снова появится в той же ячейке в своем предыдущем состоянии.

Способ 2: Кнопка «Очистить все» в меню управления списками

Больше методов, не связанных с окном управления списками в Excel и позволяющих удалить выпадающий перечень, нет, поэтому переместимся к меню «Данные» и разберем первую кнопку под названием «Очистить все».

  1. Выделите выпадающий список и откройте вкладку «Данные».
  2. Переход на вкладку Данные для удаления выпадающего списка в Excel

  3. Нажмите по кнопке «Проверка данных» для открытия выпадающего меню.
  4. Открытие меню Проверка данных для удаления выпадающего списка в Excel

  5. В нем повторно кликните по пункту с таким же названием.
  6. Выбор окна проверки данных для удаления выпадающего списка в Excel

  7. Меньше чем через секунду появится необходимое окно, где внизу слева щелкните по уже упомянутой кнопке «Очистить все».
  8. Кнопка Очистить все в меню Проверка данных для удаления выпадающего списка

  9. Ячейка станет стандартного формата, в чем вы можете убедиться, вернувшись в таблицу. Там останется только одно из наименований старого списка, очистить которое уже не составит труда.
  10. Результат удаления выпадающего списка через кнопку Очистить все в Excel

Способ 3: Изменение типа данных ячейки

Осталось разобрать последний способ, выполняющийся через то же окно «Проверка вводимых значений». Он подразумевает изменение типа данных ячейки без предварительной очистки содержимого. Этот процесс осуществляется самостоятельно, поскольку источник данных в данном случае просто отсутствует.

  1. Нажмите по кнопке «Проверка данных» для перехода в то же меню.
  2. Переход в меню Проверка данных для изменения типа ячейки при удалении выпадающего списка в Excel

  3. Разверните выпадающий список «Тип данных», чтобы задать другое значение.
  4. Изменение типа ячейки для удаления выпадающего списка в Excel

  5. Определите «Любое значение» для возвращения ячейки в исходное состояние.
  6. Применение нового формата ячейки для удаления выпадающего списка в Excel

    Lumpics.ru

  7. Закройте это окно, вернитесь к таблице и удалите остаточное значение, сохранившееся в ячейке, на чем процедуру удаления выпадающего списка можно считать завершенной.
  8. Результат удаления выпадающего списка в Excel после изменения формата ячейки

Еще статьи по данной теме:

Помогла ли Вам статья?

Понравилась статья? Поделить с друзьями:
  • Excel как отформатировать ячейки по образцу
  • Excel как отфильтровать числа с помощью автофильтра
  • Excel как отфильтровать только числа
  • Excel как отфильтровать строки по значению
  • Excel как отфильтровать ссылки