Программы в excel выбросы

  • Редакция Кодкампа

17 авг. 2022 г.
читать 3 мин


Выброс — это наблюдение, которое лежит аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.

Мы будем использовать следующий набор данных в Excel, чтобы проиллюстрировать два метода поиска выбросов:

Связанный: Как рассчитать среднее значение, исключая выбросы в Excel

Метод 1: используйте межквартильный диапазон

Межквартильный размах (IQR) — это разница между 75-м процентилем (Q3) и 25-м процентилем (Q1) в наборе данных. Он измеряет разброс средних 50% значений.

Мы можем определить наблюдение как выброс, если оно в 1,5 раза превышает межквартильный размах, превышающий третий квартиль (Q3), или в 1,5 раза превышает межквартильный размах меньше, чем первый квартиль (Q1).

На следующем изображении показано, как рассчитать межквартильный диапазон в Excel:

Затем мы можем использовать формулу, упомянутую выше, чтобы присвоить «1» любому значению, которое является выбросом в наборе данных:

Поиск выбросов в Excel

Мы видим, что только одно значение — 164 — оказывается выбросом в этом наборе данных.

Способ 2: использовать z-показатели

Z-оценка показывает, сколько стандартных отклонений данного значения от среднего. Мы используем следующую формулу для расчета z-показателя:

z = (X — μ) / σ

куда:

  • X — это одно необработанное значение данных.
  • μ — среднее значение населения
  • σ — стандартное отклонение населения

Мы можем определить наблюдение как выброс, если его z-оценка меньше -3 или больше 3.

На следующем изображении показано, как рассчитать среднее значение и стандартное отклонение для набора данных в Excel:

Затем мы можем использовать среднее значение и стандартное отклонение, чтобы найти z-оценку для каждого отдельного значения в наборе данных:

Затем мы можем присвоить «1» любому значению, которое имеет z-оценку меньше -3 или больше 3:

Поиск выбросов в Excel с использованием z-показателей

Используя этот метод, мы видим, что в наборе данных нет выбросов.

Примечание. Иногда вместо 3 используется z-показатель 2,5. В этом случае отдельное значение 164 будет считаться выбросом, поскольку его z-показатель больше 2,5. При использовании метода z-показателя руководствуйтесь своим здравым смыслом, какое значение z-показателя вы считаете выбросом.

Как обращаться с выбросами

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение было введено правильно и что это не ошибка.

2. Удалите выброс.

Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.

3. Присвойте новое значение выбросу .

Если выброс является результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее или медиана набора данных.

Outliers as the name suggest are something that doesn’t fall in the required/given range. Outliers in statistics need to be removed because they affect the decision that is to be made after performing the required calculations. Outliers generally make the decision skewed i.e they move the decision in a positive or negative direction. Sometimes it is easy to find an outlier by looking at the data but it is difficult to find an outlier when the data is large. We’ll see this with the help of an example, given a dataset and you need to perform the average of the dataset 1, 89, 57, 100, 150, 139, 49, 87, 200, 250. So, the average of the given data set is 112.2. But, it is clearly visible that 1, 200, and 250 are ranges that are too small or too large to be a part of the dataset. These ranges are known as outliers in data. After removing the outliers, the average becomes 95.85. It is evidently seen from the above example that an outlier will make decisions based.

Finding Outliers using Sorting in Excel

This is one of the easiest ways to find outliers in MS excel when your data is not huge because by having a look at the data you’ll get to know about the values that are far away from the originally recorded values.

Unsorted-Data

From the above image, we can clearly tell that the data is not sorted and hence it would take some time for us to identify outliers.

Sorted-data

While looking at Img. 2, we can clearly say that the numbers 1, 200, and 250 are outliers. 

Finding Outliers using LARGE/SMALL Excel Function

Another way to find outlier is by using built-in MS Excel functions known as LARGE and SMALL. The LARGE function will return the largest value from the array of data and the SMALL function will return the smallest value. Here, we will be using a LARGE and SMALL function which is an in-built function in Microsoft excel. Consider the example used above:

Large-and-small-example

LARGE Function Syntax:

LARGE($B$1:$B$12, 1)

Here, we are passing an array and a number. The array has the dataset for which we have to find the outlier and the number, 1, represents the first largest number from the array. If we use 2, it will return the second largest value from the array. Now when we use this function in the above example, we will get the following output:

Large-function-output

SMALL Function Syntax:

SMALL($B$1:$B$12, 1)

The syntax and pass-on value are the same. Now when we use this function in the above example, we will get the following output:

Small-function-output

Note: If there are multiple outliers in the data then you have to use the function again and again.

Finding Outliers using Inter Quartile Range(IQR)

The data presented in the above example has a small sample size but when it comes to a real-life situation, the data can be huge, and that’s where the original problem arrives. As per IQR, An outlier is any point of data that lies over 1.5 times IQRs below the first quartile (Q1) and 1.5 times IQR above the third quartile (Q3)in a data set.

Formula is

High = Q3 + 1.5 * IQR

Low = Q1 – 1.5 * IQR

Finding Outliers using the following steps:

Step 1: Open the worksheet where the data to find outlier is stored. 

Step 2: Add the function QUARTILE(array, quart), where an array is the data set for which the quartile is being calculated and a quart is the quartile number. In our case, the quart is 1 because we wish to calculate the 1st quartile to calculate the lowest outlier.

Quartile-1

Quart Number Quartile Returns
0 Minimum Value
1 First quartile(25th percentile)
2 Median Value(50th percentile)
3 Third Quartile(75th percentile)
4 Maximum Value

Step 3: Similar to step 2 add the quartile formula under Q3 and write 3 as quart number because we wish to calculate the 3rd quartile i.e 75th percentile to calculate the highest quartile value.

Step 4: Inter Quartile Range or IQR is Q3-Q1, put the formula to get the IQR value.

IQR

Step 5: To find the High value, the formula is Q3+(1.5*IQR). Similarly, for Low value, the formula is Q1-(1.5*IQR)

High-and-Low-quartile

Step 6: To find whether the number in the data set is an outlier or not, we need to check whether the data entry is higher than the High value or lower than the Low value. To perform this we will use the OR function. The formula will be OR(B3>$G$3, B3<$H$3). Put the formula in the required cell and drag down the cell adjacent to the last data set, if the value returns TRUE, then the data is an outlier otherwise not.

Checking-whether-the-number-in-the-data-set-is-an-outlier-or-not

Since you’ve checked for the outlier data. Now you can remove the outliers and use the rest data for calculations and get unbiased results.

Содержание:

  1. Что такое выбросы и почему их важно найти?
  2. Найдите выбросы путем сортировки данных
  3. Поиск выбросов с помощью квартильных функций
  4. Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ
  5. Как правильно обращаться с выбросами
  6. Удалить выбросы
  7. Нормализовать выбросы (отрегулировать значение)

При работе с данными в Excel у вас часто возникают проблемы с обработкой выбросов в наборе данных.

Выбросы довольно часто встречаются во всех видах данных, и важно идентифицировать и обрабатывать эти выбросы, чтобы убедиться, что ваш анализ правильный и значимый.

В этом уроке я покажу вам как найти выбросы в Excel, а также некоторые методы, которые я использовал в своей работе для обработки этих выбросов.

Что такое выбросы и почему их важно найти?

Выброс — это точка данных, которая выходит за рамки других точек данных в наборе данных. Если у вас есть выброс в данных, это может исказить ваши данные, что может привести к неверным выводам.

Приведу простой пример.

Допустим, 30 человек едут на автобусе из пункта назначения A в пункт назначения B. Все люди относятся к одной весовой группе и группе доходов. Для целей этого руководства давайте предположим, что средний вес составляет 220 фунтов, а средний годовой доход — 70 000 долларов.

Сейчас где-то посередине нашего маршрута автобус останавливается, и в него садится Билл Гейтс.

Как вы думаете, как это повлияет на средний вес и средний доход людей в автобусе?

Хотя средний вес вряд ли сильно изменится, средний доход пассажиров автобуса резко вырастет.

Это связано с тем, что доход Билла Гейтса является исключением в нашей группе, и это дает нам неправильную интерпретацию данных. Средний доход каждого пассажира автобуса составит несколько миллиардов долларов, что намного превышает реальную стоимость.

При работе с фактическими наборами данных в Excel вы можете иметь выбросы в любом направлении (например, положительный выброс или отрицательный выброс).

И чтобы убедиться, что ваш анализ верен, вам нужно каким-то образом идентифицировать эти выбросы, а затем решить, как лучше всего их лечить.

Теперь давайте рассмотрим несколько способов найти выбросы в Excel.

Найдите выбросы путем сортировки данных

С небольшими наборами данных быстрый способ определить выбросы — просто отсортировать данные и вручную просмотреть некоторые значения в верхней части отсортированных данных.

А так как выбросы могут быть в обоих направлениях, убедитесь, что вы сначала отсортировали данные в порядке возрастания, а затем в порядке убывания, а затем перебрали самые верхние значения.

Позвольте мне показать вам пример.

Ниже у меня есть набор данных, в котором у меня есть продолжительность звонков (в секундах) для 15 звонков в службу поддержки.

Ниже приведены шаги по сортировке этих данных, чтобы мы могли идентифицировать выбросы в наборе данных:

  1. Выберите заголовок столбца, который вы хотите отсортировать (в этом примере ячейка B1).
  2. Перейдите на вкладку «Главная«
  3. В группе «Редактирование» щелкните значок «Сортировка и фильтр».
  4. Щелкните Custom Sort (Пользовательская сортировка).
  5. В диалоговом окне «Сортировка» выберите «Продолжительность» в раскрывающемся списке «Сортировка по» и «От наибольшего к наименьшему» в раскрывающемся списке «Порядок». 
  6. Нажмите ОК

Вышеупомянутые шаги сортируют столбец продолжительности звонка с наивысшими значениями вверху. Теперь вы можете вручную просмотреть данные и посмотреть, есть ли выбросы.

В нашем примере я вижу, что первые два значения намного выше остальных значений (а два нижних намного ниже).

Примечание. Этот метод работает с небольшими наборами данных, где вы можете вручную сканировать данные. Это не научный метод, но он хорошо работает

Поиск выбросов с помощью квартильных функций

Теперь давайте поговорим о более научном решении, которое поможет вам определить, есть ли какие-то выбросы.

В статистике квартиль составляет четверть набора данных. Например, если у вас есть 12 точек данных, то первый квартиль будет тремя нижними точками данных, второй квартиль будет следующими тремя точками данных и так далее.

Ниже приведен набор данных, по которому я хочу найти выбросы. Для этого мне нужно будет вычислить 1-й и 3-й квартили, а затем с его помощью вычислить верхний и нижний предел.

Ниже приведена формула для вычисления первого квартиля в ячейке E2:
= QUARTILE.INC ($ B $ 2: $ B $ 15,1)

и вот тот, который вычисляет третий квартиль в ячейке E3:
= QUARTILE.INC ($ B $ 2: $ B $ 15,3)

Теперь я могу использовать два вышеупомянутых вычисления, чтобы получить межквартильный размах (который составляет 50% наших данных в пределах 1-го и 3-го квартилей).
= F3-F2

Теперь мы будем использовать межквартильный диапазон, чтобы найти нижний и верхний предел, который будет содержать большую часть наших данных.

Все, что выходит за эти нижние и верхние пределы, будет считаться выбросом.

Ниже приведена формула для расчета нижнего предела:
= Квартиль1 - 1,5 * (Межквартильный диапазон)
который в нашем примере становится:
= F2-1,5 * F4

И формула для расчета верхнего предела:
= Квартиль3 + 1,5 * (Межквартильный диапазон)
который в нашем примере становится:
= F3 + 1,5 * F4

Теперь, когда у нас есть верхний и нижний предел в нашем наборе данных, мы можем вернуться к исходным данным и быстро определить те значения, которые не лежат в этом диапазоне.

Быстрый способ сделать это — проверить каждое значение и вернуть ИСТИНА или ЛОЖЬ в новом столбце.

Я использовал приведенную ниже формулу ИЛИ, чтобы получить ИСТИНА для тех значений, которые являются выбросами.
= ИЛИ (B2 $ F $ 6)

Теперь вы можете фильтровать столбец Outlier и отображать только те записи, для которых значение TRUE.

Кроме того, вы также можете использовать условное форматирование, чтобы выделить все ячейки, в которых значение TRUE.

Примечание: Хотя это более распространенный метод поиска выбросов в статистике. Я считаю, что этот метод немного непригоден для использования в реальных сценариях. В приведенном выше примере нижний предел, рассчитанный по формуле, равен -103, в то время как набор данных, который у нас есть, может быть только положительным. Таким образом, этот метод может помочь нам найти выбросы в одном направлении (высокие значения), он бесполезен при выявлении выбросов в другом направлении.

Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ

Если вы работаете с большим количеством данных (значения в нескольких столбцах), вы можете извлечь 5 или 7 наибольших и наименьших значений и посмотреть, есть ли в них выбросы.

Если есть какие-либо выбросы, вы сможете их идентифицировать, не просматривая все данные в обоих направлениях.

Предположим, у нас есть приведенный ниже набор данных, и мы хотим знать, есть ли какие-либо выбросы.

Ниже приведена формула, которая даст вам наибольшее значение в наборе данных:
= БОЛЬШОЙ ($ B $ 2: $ B $ 16,1)
Точно так же второе по величине значение будет равно
= БОЛЬШОЙ ($ B $ 2: $ B $ 16,1)
Если вы не используете Microsoft 365, в которой есть динамические массивы, вы можете использовать приведенную ниже формулу, и она даст вам пять наибольших значений из набора данных с помощью одной формулы:
= БОЛЬШОЙ ($ B $ 2: $ B $ 16; СТРОКА ($ 1: 5))

Точно так же, если вам нужны 5 наименьших значений, используйте следующую формулу:
= МАЛЕНЬКИЙ ($ B $ 2: $ B $ 16; СТРОКА ($ 1: 5))
или следующее, если у вас нет динамических массивов:
= МАЛЕНЬКИЙ ($ B $ 2: $ B $ 16,1)
Когда у вас есть эти значения, очень легко обнаружить любые выбросы в наборе данных.

Хотя я решил извлечь 5 наибольших и наименьших значений, вы можете выбрать 7 или 10 в зависимости от размера вашего набора данных.

Я не уверен, является ли это приемлемым методом для поиска выбросов в Excel или нет, но это метод, который я использовал, когда мне приходилось работать с большим количеством финансовых данных на моей работе несколько лет назад. По сравнению со всеми другими методами, описанными в этом руководстве, я считаю этот наиболее эффективным.

Как правильно обращаться с выбросами

До сих пор мы видели методы, которые помогут нам найти выбросы в нашем наборе данных. Но что делать, если вы знаете, что есть выбросы.

Вот несколько методов, которые вы можете использовать для обработки выбросов, чтобы ваш анализ данных был правильным.

Удалить выбросы

Самый простой способ удалить выбросы из набора данных — просто удалить их. Таким образом, это не исказит ваш анализ.

Это более жизнеспособное решение, когда у вас большие наборы данных и удаление пары выбросов не повлияет на общий анализ. И, конечно же, перед удалением данных обязательно создайте копию и выясните, что вызывает эти выбросы.

Нормализовать выбросы (отрегулировать значение)

Нормализация выбросов — это то, что я делал, когда работал полный рабочий день. Для всех значений выбросов я бы просто изменил их на значение, немного превышающее максимальное значение в наборе данных.

Это гарантирует, что я не удаляю данные, но в то же время не позволяю им искажать мои данные.

Чтобы дать вам реальный пример, если вы анализируете маржу чистой прибыли компаний, где большинство компаний находится в пределах от -10% до 30%, а есть несколько значений, превышающих 100%, я просто изменит эти выбросы на 30% или 35%.

Итак, вот некоторые из методов, которые вы можете использовать в Excel, чтобы найти выбросы.

После того, как вы определили выбросы, вы можете углубиться в данные и посмотреть, что их вызывает, и в то же время выбрать один из методов обработки этих выбросов (который может удалить их или нормализовать, изменив значение)

Надеюсь, вы нашли этот урок полезным.

На чтение 5 мин. Просмотров 4k. Опубликовано 21.06.2019

Содержание

  1. Быстрый пример
  2. Как найти выбросы в ваших данных
  3. Шаг первый: вычислите квартили
  4. Шаг второй: оценка межквартильного диапазона
  5. Шаг третий: вернуть нижнюю и верхнюю границы
  6. Шаг четвертый: выявить выбросы
  7. Игнорирование выбросов при расчете среднего значения


Выброс – это значение, которое значительно выше или ниже, чем большинство значений в ваших данных. При использовании Excel для анализа данных выбросы могут искажать результаты. Например, среднее значение набора данных может действительно отражать ваши значения. Excel предоставляет несколько полезных функций, которые помогут вам управлять своими выбросами, поэтому давайте взглянем.

Быстрый пример

На изображении ниже достаточно легко определить выбросы – значение двух, присвоенное Эрику, и значение 173, присвоенное Райану. В таком наборе данных достаточно легко определить и устранить эти выбросы вручную.

В большем наборе данных это не будет иметь место. Очень важно уметь определять выбросы и исключать их из статистических расчетов, и именно это мы и рассмотрим, как это сделать в этой статье.

Как найти выбросы в ваших данных

Чтобы найти выбросы в наборе данных, мы используем следующие шаги:

  1. Вычислите 1-й и 3-й квартили (мы немного поговорим о том, что это такое).
  2. Оцените межквартильный диапазон (мы также объясним это чуть ниже).
  3. Вернуть верхнюю и нижнюю границы нашего диапазона данных.
  4. Используйте эти границы для определения удаленных точек данных.

Диапазон ячеек справа от набора данных, показанного на рисунке ниже, будет использоваться для хранения этих значений.

Давайте начнем.

Шаг первый: вычислите квартили

Если вы разделите свои данные на кварталы, каждый из этих наборов называется квартилем. Самые низкие 25% чисел в диапазоне составляют 1-й квартиль, следующие 25% – 2-й квартиль и так далее. Сначала мы сделаем этот шаг, потому что наиболее широко используемое определение выброса – это точка данных, которая находится на расстоянии более 1,5 межквартильных диапазонов (IQR) ниже 1-го квартиля и 1,5 межквартильных диапазонов выше 3-го квартиля. Чтобы определить эти значения, мы сначала должны выяснить, что такое квартили.

Excel предоставляет функцию QUARTILE для расчета квартилей. Требуется две части информации: массив и кварт.

 = QUARTILE (массив, кварт) 

массив – это диапазон значений, которые вы оцениваете. И кварта – это число, представляющее квартиль, который вы хотите вернуть (например, 1 для 1-го квартиля, 2 для 2-го квартиля и т. Д.).

Примечание. В Excel 2010 Microsoft выпустила функции QUARTILE.INC и QUARTILE.EXC в качестве улучшений функции QUARTILE. QUARTILE более обратно совместим при работе с несколькими версиями Excel.

Давайте вернемся к нашему примеру таблицы.

Для вычисления 1-го квартиля мы можем использовать следующую формулу в ячейке F2.

 = КВАРТИЛЬ (В2: B14,1) 

При вводе формулы Excel предоставляет список параметров для аргумента кварта.

Чтобы вычислить третий квартиль, мы можем ввести формулу, аналогичную предыдущей, в ячейку F3, но используя три вместо одного.

 = КВАРТИЛЬ (В2: B14,3) 

Теперь у нас есть квартильные точки данных, отображаемые в ячейках.

Шаг второй: оценка межквартильного диапазона

Межквартильный диапазон (или IQR) – это средние 50% значений в ваших данных. Он рассчитывается как разница между значением 1-го квартиля и 3-го квартиля.

Мы собираемся использовать простую формулу в ячейке F4, которая вычитает 1-й квартиль из 3-го квартиля:

 = F3-F2 

Теперь мы можем видеть наш межквартильный диапазон.

Шаг третий: вернуть нижнюю и верхнюю границы

Нижние и верхние границы – это самые маленькие и самые большие значения диапазона данных, которые мы хотим использовать. Любые значения, меньшие или большие, чем эти связанные значения, являются выбросами.

Мы рассчитаем нижний предел границы в ячейке F5, умножив значение IQR на 1,5, а затем вычтя его из точки данных Q1:

 = F2- (1,5 * F4) 

Примечание . В этой формуле скобки не обязательны, так как часть умножения будет рассчитываться до части вычитания, но она облегчает чтение формулы.

Чтобы вычислить верхнюю границу в ячейке F6, мы снова умножим IQR на 1,5, но на этот раз добавим его в точку данных Q3:

 = F3 + (1,5 * F4) 

Шаг четвертый: выявить выбросы

Теперь, когда мы настроили все наши базовые данные, пришло время идентифицировать наши отдаленные точки данных – те, которые ниже, чем нижнее граничное значение, или выше, чем верхнее граничное значение.

Мы будем использовать функцию ИЛИ, чтобы выполнить этот логический тест и показать значения, которые соответствуют этим критериям, введя следующую формулу в ячейку C2:

 = ИЛИ (В2 $ F $ 6) 

Затем мы скопируем это значение в наши ячейки C3-C14. Значение TRUE указывает на выброс, и, как вы можете видеть, у нас есть два в наших данных.

Игнорирование выбросов при расчете среднего значения

Используя функцию QUARTILE, мы рассчитаем IQR и работаем с наиболее широко используемым определением выброса. Однако при расчете среднего значения для диапазона значений и игнорировании выбросов существует более быстрая и простая функция для использования. Этот метод не будет идентифицировать выброс как прежде, но он позволит нам быть гибкими с тем, что мы могли бы считать нашей частью выброса.

Функция, которая нам нужна, называется TRIMMEAN, и вы можете увидеть ее синтаксис ниже:

 = TRIMMEAN (массив, проценты) 

массив – это диапазон значений, которые вы хотите усреднить. процент – это процент точек данных, которые нужно исключить из верхней и нижней частей набора данных (вы можете ввести его в процентах или десятичном значении).

Мы ввели формулу ниже в ячейку D3 в нашем примере, чтобы вычислить среднее значение и исключить 20% выбросов.

 = TRIMMEAN (B2: B14, 20%) 

Там у вас есть две разные функции для обработки выбросов. Независимо от того, хотите ли вы определить их для каких-либо потребностей в отчетности или исключить их из вычислений, таких как средние значения, в Excel есть функция, отвечающая вашим потребностям.

14 апреля 2022 г.

Excel — это приложение для создания электронных таблиц, которое позволяет пользователям создавать базовые или сложные отчеты для хранения данных, анализа и визуализации. При вводе, анализе и интерпретации данных выбросы могут привести к значительным изменениям, влияющим на точность отчета. Понимание этих выбросов может помочь вам идентифицировать их и свести к минимуму потенциальные расхождения, которые они могут вызвать. В этой статье мы обсудим, что такое выбросы в Excel, объясним, как их вычислить, и дадим несколько советов, которые помогут вам.

Выброс в Excel — это точка данных или набор значений, которые значительно отличаются от среднего или ожидаемого диапазона в статистической выборке или делении. Эти выбросы могут быть ненужными аномалиями для целей анализа данных или электронных таблиц. Выбросы могут повлиять на интерпретацию данных и привести к неточным результатам или прогнозам из-за их заметного отличия от остальных представленных данных. Чтобы обеспечить точность отчетов о данных, вы можете идентифицировать, вычислить и минимизировать эти выбросы в электронной таблице Excel.

Как посчитать выбросы в Excel

Рассмотрим эти шаги для расчета выбросов в Excel:

1. Проверьте введенные данные

Процесс ввода данных может привести к ручным или автоматическим ошибкам переноса, что может привести к выбросу значений. Обязательно просмотрите и проверьте данные, введенные в вашу электронную таблицу, чтобы найти и исправить опечатки или другие ошибки, приводящие к неточностям. Вы можете использовать автоматизированные инструменты для просмотра введенных вами данных или вручную проверить значения каждой ячейки.

2. Отсортируйте значения данных

Выберите диапазон вашего набора данных, щелкнув первую ячейку и перетащив поле в правом нижнем углу до последней ячейки. В верхней функциональной ленте Excel щелкните вкладку «Главная», чтобы получить доступ к инструменту «Сортировка и фильтрация», и выберите параметр «Пользовательская сортировка». В раскрывающемся меню категории «Порядок» выберите порядок набора данных от «наименьшего к наибольшему» и нажмите «ОК», чтобы применить изменения.

3. Проанализируйте свои ценности

После сортировки значений в вашем наборе данных вы можете вручную определить большие расхождения данных и выбросы, которые необходимо устранить. Вы можете удалить их из своего набора данных или провести дальнейший расчет, чтобы удалить только статистические аномалии. Для небольших наборов данных вы можете щелкнуть правой кнопкой мыши строку или столбец вашего выпадающего значения и удалить его из электронной таблицы.

4. Определите свои квартили данных

Чтобы вычислить выбросы в вашем наборе данных, рассчитайте свои квартили, используя автоматическую формулу квартилей Excel, начинающуюся с «=QUARTILE(» в пустой ячейке. После левой скобки укажите первую и последнюю ячейки в вашем диапазоне данных, разделенные двоеточием, а затем через запятую и квартиль, который вы хотите определить. Ваша формула может выглядеть примерно так: «=КВАРТИЛЬ(A5:A50, 1)» или «=КВАРТИЛЬ(B2:B200, 3)».

5. Определите межквартильный диапазон

Межквартильный представляет собой ожидаемый средний диапазон вашего набора данных без выпадающих значений. Вы можете рассчитать межквартильный диапазон, вычитая первый квартиль из третьего квартиля. В пустой ячейке укажите ячейку с формулой третьего квартиля, знак минус и ячейку с формулой первого квартиля, чтобы ввести что-то вроде «C2-C1», и нажмите клавишу ввода, чтобы Excel вычислил ее.

6. Вычислите верхнюю и нижнюю границы

Определение верхней и нижней границ вашего набора данных позволяет вам идентифицировать значения, большие или меньшие, чем каждое, соответственно, чтобы найти выбросы. Чтобы найти верхнюю границу вашего диапазона данных, умножьте межквартильный диапазон на 1,5 и прибавьте его к значению третьего квартиля, чтобы создать формулу, например «=C2+(1,5*C3)». Чтобы найти нижнюю границу диапазона данных, умножьте межквартильный диапазон на 1,5 и вычтите его из значения первого квартиля, чтобы создать формулу, например, «=C1-(1,5*C3)».

7. Удалите выбросы

После определения верхней и нижней границ вашего набора данных просмотрите свои значения, чтобы найти те, которые выше верхней границы или ниже нижней границы. Вы можете рассматривать эти значения как статистические выбросы, чтобы удалить их из набора данных для более точного анализа или визуализации отчетов. Удалите их из электронной таблицы, щелкнув правой кнопкой мыши ячейку или ячейки с посторонними значениями и выбрав их удаление.

Советы по вычислению выбросов в Excel

Вот несколько советов, которые помогут вам рассчитать выбросы в Excel:

Отрегулируйте внешние значения

В зависимости от цели вашего отчета электронной таблицы вы можете рассмотреть возможность корректировки значений ваших выбросов, а не их вычисления, чтобы упростить процесс анализа. Вы можете выявить явные несоответствия значений и скорректировать их, чтобы они соответствовали максимальному значению в среднем диапазоне. Это позволяет вам поддерживать количество собранных вами точек данных, отражая при этом соответствующие значения, необходимые для вашего отчета.

Посмотрите на визуализации данных

С помощью набора инструментов и функций Excel вы можете создавать визуализации данных, такие как графики и графики. Вы можете создать автоматическую визуализацию на основе введенного вами диапазона данных, чтобы увидеть среднюю тенденцию ваших точек данных, а также выпадающие точки данных, которые отделены от среднего диапазона. Визуализация данных может помочь вам выявить существенные расхождения, чтобы удалить или исключить их из результатов вашего отчета.

Сократите диапазон данных

Вы можете использовать функцию автоматической обрезки диапазона данных Excel, чтобы исключить указанный процент значений из самой высокой и самой низкой частей вашего набора данных. Чтобы использовать эту функцию, введите «=TRIMMEAN(» в пустой ячейке, чтобы начать формулу. После левой скобки укажите первую и последнюю ячейки в диапазоне, разделенные двоеточием, затем процент, который вы хотите обрезать, и правую круглые скобки, чтобы создать формулу, аналогичную формуле «=ОБРЕЗАТЬСРЕДН(A5:A50, 0,25)».

Обратите внимание, что ни одна из компаний или продуктов, упомянутых в этой статье, не связана с компанией Indeed.

Быстрый пример

На изображении ниже выбросы довольно легко обнаружить — значение два присвоено Эрику, а значение 173 — Райану. В таком наборе данных достаточно легко обнаружить и обработать эти выбросы вручную.

В большем наборе данных этого не будет. Возможность идентифицировать выбросы и удалять их из статистических расчетов важна — и это то, что мы рассмотрим, как это сделать в этой статье.

Как найти выбросы в ваших данных

Чтобы найти выбросы в наборе данных, мы используем следующие шаги:

Вычислите 1-й и 3-й квартили (мы немного поговорим о том, что это такое).
Оцените межквартильный размах (мы также объясним это немного ниже).
Верните верхнюю и нижнюю границы нашего диапазона данных.
Используйте эти границы для определения отдаленных точек данных.

Диапазон ячеек справа от набора данных, показанного на изображении ниже, будет использоваться для хранения этих значений.

Диапазон для квартилей

Давайте начнем.

Шаг 1. Рассчитайте квартили

Если вы разделите данные на кварталы, каждый из этих наборов называется квартилем. Самые низкие 25% чисел в диапазоне составляют 1-й квартиль, следующие 25% — 2-й квартиль и т. Д. Мы делаем этот шаг в первую очередь, потому что наиболее широко используемое определение выброса — это точка данных, которая более чем на 1,5 интерквартильных диапазонов (IQR) ниже 1-го квартиля и на 1,5 межквартильных диапазонов выше 3-го квартиля. Чтобы определить эти значения, мы сначала должны выяснить, каковы квартили.

Excel предоставляет функцию КВАРТИЛЬ для расчета квартилей. Для этого требуются две части информации: массив и кварта.

=QUARTILE(array, quart)

Массив — это диапазон значений, которые вы оцениваете. Кварта — это число, которое представляет квартиль, который вы хотите вернуть (например, 1 для 1-го квартиля, 2 для 2-го квартиля и т. Д.).

Примечание. В Excel 2010 Microsoft выпустила функции QUARTILE.INC и QUARTILE.EXC как усовершенствования функции QUARTILE. QUARTILE более обратно совместима при работе с несколькими версиями Excel.

Вернемся к нашему примеру таблицы.

Диапазон для квартилей

Для вычисления 1-го квартиля мы можем использовать следующую формулу в ячейке F2.

=QUARTILE(B2:B14,1)

Когда вы вводите формулу, Excel предоставляет список параметров для аргумента кварты.

Чтобы вычислить 3-й квартиль, мы можем ввести формулу, аналогичную предыдущей, в ячейку F3, но используя тройку вместо единицы.

=QUARTILE(B2:B14,3)

Теперь у нас есть точки данных квартилей, отображаемые в ячейках.

Значения 1-го и 3-го квартилей

Шаг второй: оцените межквартильный размах

Межквартильный диапазон (или IQR) — это средние 50% значений в ваших данных. Он рассчитывается как разница между значением 1-го квартиля и значением 3-го квартиля.

Мы собираемся использовать простую формулу в ячейке F4, которая вычитает 1-й квартиль из 3-го квартиля:

=F3-F2

Теперь мы можем видеть наш межквартильный размах.

Межквартильное значение

Шаг третий: верните нижнюю и верхнюю границы

Нижняя и верхняя границы — это наименьшее и наибольшее значение диапазона данных, который мы хотим использовать. Любые значения, меньшие или большие, чем эти связанные значения, являются выбросами.

Мы рассчитаем нижний предел в ячейке F5, умножив значение IQR на 1,5, а затем вычтя его из точки данных Q1:

=F2-(1.5*F4)

Формула Excel для значения нижней границы

Примечание. Скобки в этой формуле не нужны, потому что часть умножения будет вычисляться перед частью вычитания, но они облегчают чтение формулы.

Чтобы вычислить верхнюю границу в ячейке F6, мы снова умножим IQR на 1,5, но на этот раз добавим его к точке данных Q3:

=F3+(1.5*F4)

Нижняя и верхняя граница значений

Шаг четвертый: выявление выбросов

Теперь, когда мы настроили все наши базовые данные, пришло время определить наши отдаленные точки данных — те, которые ниже значения нижней границы или выше значения верхней границы.

Мы будем использовать Функция ИЛИ для выполнения этого логического теста и отображения значений, соответствующих этим критериям, введите следующую формулу в ячейку C2:

=OR(B2$F$6)

Функция ИЛИ для выявления выбросов

Затем мы скопируем это значение в наши ячейки C3-C14. Значение ИСТИНА указывает на выброс, и, как видите, в наших данных их два.

Игнорирование выбросов при вычислении среднего среднего

Использование функции КВАРТИЛЬ позволяет нам рассчитать IQR и работать с наиболее широко используемым определением выброса. Однако при вычислении среднего среднего для диапазона значений и игнорировании выбросов существует более быстрая и простая функция. Этот метод не будет определять выбросы, как раньше, но он позволит нам быть гибкими в выборе того, что мы можем считать своей частью выбросов.

Нужная нам функция называется TRIMMEAN, синтаксис для нее вы можете увидеть ниже:

=TRIMMEAN(array, percent)

Массив — это диапазон значений, которые вы хотите усреднить. Процент — это процент точек данных, которые необходимо исключить из верхней и нижней части набора данных (вы можете ввести его как процентное или десятичное значение).

В нашем примере мы ввели приведенную ниже формулу в ячейку D3, чтобы вычислить среднее значение и исключить 20% выбросов.

=TRIMMEAN(B2:B14, 20%)

Формула ТРИММЕАН для среднего без учета выбросов

Здесь у вас есть две разные функции для обработки выбросов. Независимо от того, хотите ли вы идентифицировать их для каких-либо потребностей в отчетности или исключить их из вычислений, таких как средние значения, в Excel есть функция, соответствующая вашим потребностям.

Подравляю всех посетителей нашего форума с 47 годовщиной провозглашения Дня Охраны Окружающей Среды — Дня Эколога!

Модератор: Raccoon

Аватара пользователя

DeadLine

Administrator
Сообщения: 11490
Зарегистрирован: 03 май 2006, 06:37
Откуда: Тюмень
Благодарил (а): 350 раз
Поблагодарили: 585 раз
Контактная информация:

Программы по расчету выбросов в Microsoft Excel

Тема посвящена программам по экологии выполненным в Microsoft Excel.
Если у вас есть такие программы, то выкладывайте!
Правила:
1. Название программы
2. Название использованной методики.
3. Описание возможности программы.
4. Ссылка на скачивание программы (вставка вложений под формой ответа «Добавить вложение»)
примечание — перед вставкой файла — архивируйте его любым архивов в формат zip или rar

Перечень размещенных расчетов в Microsoft Excel

Изображение


Аватара пользователя

DeadLine

Administrator
Сообщения: 11490
Зарегистрирован: 03 май 2006, 06:37
Откуда: Тюмень
Благодарил (а): 350 раз
Поблагодарили: 585 раз
Контактная информация:

Re: Программы в Microsoft Excel

Сообщение

DeadLine » 12 дек 2009, 09:13

Дизель

Программа предназначена для расчетов величин максимально-разовых и валовых выбросов вредных веществ от дизельных установок. Программа основана на «Методике расчета выделений загрязняющих веществ в атмосферу от стационарных дизельных установок», НИИ Атмосфера, Санкт-Петербург, 2001. с учетом рекомендаций «Методического пособия по расчету и нормированию выбросов загрязняющих веществ в атмосферу СПБ».

Программа позволяет рассчитывать величины максимально-разовых и валовых выбросов загрязняющих веществ от стационарных дизельных установок:
— маломощных, быстроходных и повышенной быстроходности;
— средней мощности;
— мощные, средней быстроходности;
— мощные, многоцилиндровые.

Программа содержит следующую справочную информацию:
— по веществам, выбрасываемым при работе дизельной установки;
— по удельным выбросам от дизельных установок различных типов.

У вас нет необходимых прав для просмотра вложений в этом сообщении.

Изображение


Аватара пользователя

А. Сивяков

Медаль за развитие форума 3ст. Медаль за развитие форума 2ст.

Верховный гуру
Сообщения: 3701
Зарегистрирован: 29 ноя 2009, 21:01
Награды: 2
Откуда: Пермь
Благодарил (а): 2 раза
Поблагодарили: 220 раз

Re: Программы в Microsoft Excel

Сообщение

А. Сивяков » 12 дек 2009, 13:02

Давайте, попробуем. Когда я начинал семь лет назад делать проекты, то по совету одного знающего человека купил только две программы по расчету выбросов: котельные и автотранспорт, а по всем остальным методикам сделал для себя удобные программки в Excel. Все программы сделаны по одному шаблону, в виде таблицы. В эту таблицу заносятся исходные данные, она же является и отчетной формой, я ее копирую в файл проекта. Конечно, у доморощенных программ есть существенный недостаток — они сделаны «под себя» и не имеют многих свойств настоящего программного продукта, скажем, их по незнанию легко испортить (но это можно обойти — всегда надо сохранять резервную копию). И еще я думаю, что все-равно пользователь таких программ должен хорошо знать саму методику, по которой программа создана. Ну да ладно, лиха беда начало. Выкладываю программку по расчету выбросов от металлообрабатывающего оборудования. Название методики есть в файле. Производится расчет максимально-разовых и валовых выбросов от м/о станков. В строчке «Синхронность работы с другими группами станков» ставите «1», если данный станок работает синхронно (одновременно) с другими, и «0» в противном случае. Удельные показатели выделений можно ставить какие вам надо.
По такому образу и подобию у меня созданы программки и на все остальные методики. Очень помогает в работе, особенно когда приходится считать много вариантов.
Не стреляйте в пианиста, он играет как умеет!

У вас нет необходимых прав для просмотра вложений в этом сообщении.

Если соберем волю каждого в одну волю – выстоим.
Если соберем совесть каждого в одну совесть – выстоим.
Если соберем любовь каждого к России в одну любовь – выстоим.

Иоанн Кронштадский


Аватара пользователя

DeadLine

Administrator
Сообщения: 11490
Зарегистрирован: 03 май 2006, 06:37
Откуда: Тюмень
Благодарил (а): 350 раз
Поблагодарили: 585 раз
Контактная информация:

Re: Программы в Microsoft Excel

Сообщение

DeadLine » 18 дек 2009, 04:54

Полигоны ТБО

Программа «Полигоны ТБО» предназначена для расчета загрязняющих веществ в атмосферу от полигонов твердых бытовых и промышленных отходов в соответствии с «Методикой расчета количественных характеристик выбросов загрязняющих веществ в атмосферу от полигонов твердых бытовых и промышленных отходов», Москва, 2004 и Письмом НИИ Атмосфера 07-2/248-а от 16.03.2007 г.

В программе заложены данные по основным газообразным загрязняющим веществам, составляющим биогаз, выделяющийся в результате биотермического анаэробного процесса распада органических составляющих твердых бытовых и промышленных отходов. Качественный количественный состав биогаза может отличаться от имеющегося в программе, поэтому существует возможность уточнения его в каждом конкретном случае.

Программа разработана на платформе Microsoft Excel

У вас нет необходимых прав для просмотра вложений в этом сообщении.

Изображение


Аватара пользователя

Kazak

Новичок
Сообщения: 38
Зарегистрирован: 10 авг 2007, 22:50
Благодарил (а): 1 раз
Поблагодарили: 21 раз

Re: Программы в Microsoft Excel

Сообщение

Kazak » 20 дек 2009, 23:24

Оцените моё

У вас нет необходимых прав для просмотра вложений в этом сообщении.


Аватара пользователя

Kazak

Новичок
Сообщения: 38
Зарегистрирован: 10 авг 2007, 22:50
Благодарил (а): 1 раз
Поблагодарили: 21 раз

Re: Программы в Microsoft Excel

Сообщение

Kazak » 23 дек 2009, 00:29

Сварку исправлю и вылажу снова. А пока посмотрите следующее:

У вас нет необходимых прав для просмотра вложений в этом сообщении.


Аватара пользователя

Hunter

Профи
Сообщения: 709
Зарегистрирован: 04 июн 2007, 15:55
Откуда: Россия
Благодарил (а): 5 раз
Поблагодарили: 23 раза

Re: Программы в Microsoft Excel

Сообщение

Hunter » 23 дек 2009, 14:06

А. Сивяков , вот держи конвертор

У вас нет необходимых прав для просмотра вложений в этом сообщении.

Ищущий да обрящет…


Аватара пользователя

Олег

Профи
Сообщения: 527
Зарегистрирован: 13 мар 2007, 22:21
Откуда: Екатеринбург
Благодарил (а): 5 раз
Поблагодарили: 16 раз

Re: Программы в Microsoft Excel

Сообщение

Олег » 23 дек 2009, 18:00

Принято считать, что аэрозоль все таки высыхает, поэтому пересчитываем растворители отдельно и отдельно сухой остаток в 30% улетевшего аэрозоля. Мы принимаем его как взвешенные вещества.


Аватара пользователя

Kazak

Новичок
Сообщения: 38
Зарегистрирован: 10 авг 2007, 22:50
Благодарил (а): 1 раз
Поблагодарили: 21 раз

Re: Программы в Microsoft Excel

Сообщение

Kazak » 23 дек 2009, 18:37

Окрасочный аэрозоль в програмке учитывается при всех способах окраски кроме окунания. Просто были скрыты не нужные строки. Выкладываю в 2003 экселе:

У вас нет необходимых прав для просмотра вложений в этом сообщении.


Аватара пользователя

Kazak

Новичок
Сообщения: 38
Зарегистрирован: 10 авг 2007, 22:50
Благодарил (а): 1 раз
Поблагодарили: 21 раз

Re: Программы в Microsoft Excel

Сообщение

Kazak » 23 дек 2009, 23:53

За основу програмки был взят «интеграловский» расчёт
Что как и почему расчёт именно такой… не могу знать.

Выкладываю ещё раз сварку и проверочный расчёт по программе сварка интеграл

У вас нет необходимых прав для просмотра вложений в этом сообщении.


Аватара пользователя

А. Сивяков

Медаль за развитие форума 3ст. Медаль за развитие форума 2ст.

Верховный гуру
Сообщения: 3701
Зарегистрирован: 29 ноя 2009, 21:01
Награды: 2
Откуда: Пермь
Благодарил (а): 2 раза
Поблагодарили: 220 раз

Re: Программы в Microsoft Excel

Сообщение

А. Сивяков » 24 дек 2009, 09:01

Получается, что поправочный коэффициент Q применяется для неорганической пыли. Я про это не знаю, видимо существует некое методическое письмо, может кто в курсе?
Я когда определяю расход электродов в час — «танцую» что называется от жизни. Пачка обычных электродов (3-мм) весит около 4,5 кг. Электродов там как правило 130-140 штук. В подавляющем большинстве случаев мы с вами обсчитываем сварочные посты ремонтных подразделений, где работа не очень интенсивная. Пока сварщик примерится, приладится, покурит, короче за час сожжет 8-10 электродов. Я при обследовании объекта со сварщиками этот момент уточняю (без присутствия начальства, а то начинаются преувеличения). Таким образом, расход электродов в 1 кг/час — вещь весьма редкая, обычно 0,2-0,4 кг/час.
Программой Интеграла не пользовался, но поскольку они заложили такой расчетный алгоритм, то получается можно и так, интеграловцы ведь в авторитете.
Надо вам проверить орфографию в программе — есть ошибки. По резке напишу позже.

Если соберем волю каждого в одну волю – выстоим.
Если соберем совесть каждого в одну совесть – выстоим.
Если соберем любовь каждого к России в одну любовь – выстоим.

Иоанн Кронштадский


Аватара пользователя

Мастер рекламы
Контактная информация:


Вернуться в «Бесплатное программное обеспечение»


Перейти

  • Природоохранный форум
  • ↳   Охрана природы
  • ↳   Экологические проблемы
  • Экологический форум — Белоруссия
  • ↳   Общие вопросы
  • Экологический форум — Украина
  • ↳   Общие вопросы
  • Экологический форум — Казахстан
  • ↳   Общие вопросы
  • ↳   Казахстан. Проектная экология
  • Экологический форум — Россия
  • ↳   Общие вопросы
  • ↳   Законодательство
  • ↳   Раздел охраны окружающей среды
  • ↳   Государственная и Экологическая экспертиза
  • ↳   Публичные слушания
  • ↳   Экологический мониторинг и контроль
  • ↳   Экологический менеджмент и аудит
  • ↳   Документация на оборудование
  • ↳   Документация на сырье и материалы
  • ↳   Библиотека форума
  • ↳   Справочник организаций и учреждений
  • ↳   Лицензирование
  • ↳   Парниковые газы
  • ↳   Законодательство
  • ↳   Методическое обеспечение
  • ↳   Программное обеспечение
  • ↳   Бесплатное программное обеспечение
  • ↳   Программное обеспечение
  • ↳   Программное обеспечение «Эко центр» Воронеж
  • ↳   Программное обеспечение «НПП Логус» Красногорск
  • ↳   Программное обеспечение ООО НПП “ЛОГОС-ПЛЮС” Новосибирск
  • ↳   Программное обеспечение ООО «Фирма Интеграл» Санкт-Петербург
  • ↳   Программное обеспечение ООО Предприятие «ЛиДа инж.»
  • ↳   Инженерно-экологические изыскания
  • ↳   Изыскания. Законодательство
  • ↳   Методическое обеспечение. Инженерно-экологические изыскания
  • ↳   Особо охраняемые природные территории
  • ↳   ООПТ. Законодательство
  • ↳   Объекты археологии и культурного наследия
  • ↳   Охрана земель, акты выбора земельных участков, рекультивация
  • ↳   Земельные ресурсы. Законодательство
  • ↳   Охрана земельных ресурсов
  • ↳   Разработка проектов рекультивации земель
  • ↳   Отвод и аренда земель
  • ↳   Методическое обеспечение. Охрана земель, рекультивация
  • ↳   Атмосферный воздух
  • ↳   Атмосферный воздух. Законодательство
  • ↳   Электроэнергетика и теплоэнергетика
  • ↳   Нефтегазовая отрасль
  • ↳   Металлургия
  • ↳   Химия и нефтехимия
  • ↳   Машиностроение, металлообработка, сварка и лакокраска
  • ↳   Строительство, склады, хвостохранилища
  • ↳   Пищевая промышленность и Сельское хозяйство
  • ↳   Транспорт
  • ↳   Добывающая промышленность
  • ↳   Проект ПДВ и Инвентаризация
  • ↳   Другие отрасли промышленности
  • ↳   Коды и ПДК веществ
  • ↳   Расчеты рассеивания
  • ↳   Нормирование выбросов
  • ↳   Метеорологические характеристики
  • ↳   Фоновые концентрации
  • ↳   Методическое обеспечение. Атмосферный воздух
  • ↳   Физические воздействия
  • ↳   Физические воздействия. Законодательство
  • ↳   Шумовое воздействие
  • ↳   Вибрация
  • ↳   Электромагнитные воздействия
  • ↳   Методическое обеспечение. Физические воздействия
  • ↳   Санитарно-защитные зоны
  • ↳   Санитарные зоны. Законодательство
  • ↳   Оценка риска для здоровья населения
  • ↳   Методическое обеспечение. Санитарно-защитные зоны
  • ↳   Водные ресурсы
  • ↳   Водные ресурсы. Законодательство
  • ↳   Охрана водных ресурсов
  • ↳   Водоохранные зоны
  • ↳   Зоны санитарной охраны
  • ↳   Разработка проекта НДС
  • ↳   Методическое обеспечение. Водные ресурсы
  • ↳   Отходы производства и потребления
  • ↳   Отходы. Законодательство
  • ↳   Расчеты образования отходов
  • ↳   Разработка ПНООЛР
  • ↳   Коды отходов ФККО
  • ↳   Расчет класса опасности отходов
  • ↳   Паспортизация отходов
  • ↳   Отходы. Лицензирование
  • ↳   Утилизация отходов
  • ↳   Фирмы и организации по утилизации отходов
  • ↳   Методическое обеспечение. Отходы производства и потребления
  • ↳   Растительный и животный мир
  • ↳   Флора и Фауна. Законодательство
  • ↳   Охрана растительности
  • ↳   Охрана животного мира
  • ↳   Проект освоения лесов
  • ↳   Ихтиофауна
  • ↳   Методическое обеспечение. Растительный и животный мир
  • ↳   Экологические платежи
  • ↳   Платежи. Законодательство
  • ↳   Экологические риски и ущербы
  • ↳   Методическое обеспечение. Экологические платежи
  • ↳   Экология на производстве
  • ↳   Законодательство на предприятиях
  • ↳   Проверки на предприятиях
  • Другие разделы проектной документации
  • ↳   Промышленная безопасность
  • ↳   Законодательство
  • ↳   Охрана труда
  • ↳   Гражданская оборона и чрезвычайные ситуации
  • ↳   Пожарная безопасность
  • ↳   Проект организации строительства
  • Реклама, события, объявления
  • ↳   События, Семинары, Курсы и Тренинги
  • ↳   Реклама, Объявления, Предложения, Сотрудничество
  • Общий форум
  • ↳   Работа
  • ↳   Проектные институты и организации
  • ↳   Центральный федеральный округ
  • ↳   Южный федеральный округ
  • ↳   Северо-Западный федеральный округ
  • ↳   Дальневосточный федеральный округ
  • ↳   Сибирский федеральный округ
  • ↳   Уральский федеральный округ
  • ↳   Тюменская область, включая ХМАО и ЯНАО
  • ↳   Приволжский федеральный округ
  • ↳   Северо-Кавказский федеральный округ
  • ↳   Вакансии
  • ↳   Резюме
  • ↳   Специалисты фрилансеры
  • ↳   Тендеры и заказы
  • ↳   О форуме, сайте
  • ↳   Поговоримка
  • ↳   Кулинар и Я
  • ↳   Командировка
  • ↳   Новости
  • ↳   Экология в лицах
  • ↳   Фильмы, сериалы, кино
  • ↳   Корзина

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей


An outlier is an observation that lies abnormally far away from other values in a dataset.

Outliers can be problematic because they can affect the results of an analysis.

We will use the following dataset in Excel to illustrate two methods for finding outliers:

Related: How to Calculate Average Excluding Outliers in Excel

Method 1: Use the interquartile range

The interquartile range (IQR) is the difference between the 75th percentile (Q3) and the 25th percentile (Q1) in a dataset. It measures the spread of the middle 50% of values.

We can define an observation to be an outlier if it is 1.5 times the interquartile range greater than the third quartile (Q3) or 1.5 times the interquartile range less than the first quartile (Q1).

The following image shows how to calculate the interquartile range in Excel:

Next, we can use the formula mentioned above to assign a “1” to any value that is an outlier in the dataset:

Finding outliers in Excel

We see that only one value – 164 – turns out to be an outlier in this dataset.

Method 2: Use z-scores

A z-score tells you how many standard deviations a given value is from the mean. We use the following formula to calculate a z-score:

z = (X – μ) / σ

where:

  • X is a single raw data value
  • μ is the population mean
  • σ is the population standard deviation

We can define an observation to be an outlier if it has a z-score less than -3 or greater than 3.

The following image shows how to calculate the mean and standard deviation for a dataset in Excel:

We can then use the mean and standard deviation to find the z-score for each individual value in the dataset:

We can then assign a “1” to any value that has a z-score less than -3 or greater than 3:

Finding outliers in Excel using z-scores

Using this method, we see that there are no outliers in the dataset.

Note: Sometimes a z-score of 2.5 is used instead of 3. In this case, the individual value of 164 would be considered an outlier since it has a z-score greater than 2.5.

When using the z-score method, use your best judgement for which z-score value you consider to be an outlier.

How to Handle Outliers

If an outlier is present in your data, you have a few options:

1. Make sure the outlier is not the result of a data entry error.

Sometimes an individual simply enters the wrong data value when recording data. If an outlier is present, first verify that the value was entered correctly and that it wasn’t an error.

2. Remove the outlier.

If the value is a true outlier, you may choose to remove it if it will have a significant impact on your overall analysis. Just make sure to mention in your final report or analysis that you removed an outlier.

3. Assign a new value to the outlier.

If the outlier is the result of a data entry error, you may decide to assign a new value to it such as the mean or the median of the dataset.

Понравилась статья? Поделить с друзьями:
  • Программы альтернативные microsoft word
  • Программы world excel как с ними работать
  • Программы word для ios
  • Программы word excel список
  • Программы word excel для телефонов