В процессе анализ данных обычно прослеживается закономерность в том, что все значения колеблются возле определенного центрального уровня – медианы. Хотя очень часто некоторые из них выпадают далеко от центра. Такие значения называются статистическими выбросами (находятся далеко за прогнозируемым диапазоном). Статистические выбросы могут запачкать результаты статистического анализа, что может приводить к фальшивым или ошибочным выводам касающихся данных.
Как определить статистические выбросы и сделать выборку для их удаления в Excel
Для экспонирования и выделения цветом значений статистических выбросов от медианы можно использовать несколько простых формул и условное форматирование.
Первым шагом в поиске значений выбросов статистики является определение статистического центра диапазона данных. С этой целью необходимо сначала определить границы первого и третьего квартала. Определение границ квартала – значит разделение данных на 4 равные группы, которые содержат по 25% данных каждая. Группа, содержащая 25% наибольших значений, называется первым квартилем.
Границы квартилей в Excel можно легко определить с помощью простой функции КВАРТИЛЬ. Данная функция имеет 2 аргумента: диапазон данных и номер для получения желаемого квартиля.
В примере показанному на рисунке ниже значения в ячейках E1 и E2 содержат показатели первого и третьего квартиля данных в диапазоне ячеек B2:B19:
Вычитая от значения первого квартиля третьего, можно определить набор 50% статистических данных, который называется межквартильным диапазоном. В ячейке E3 определен размер межквартильного диапазона.
В этом месте возникает вопрос, как сильно данное значение может отличаться от среднего значения 50% данных и оставаться все еще в пределах нормы? Статистические аналитики соглашаются с тем, что для определения нижней и верхней границы диапазона данных можно смело использовать коэффициент расширения 1,5 умножив на значение межквартильного диапазона. То есть:
- Нижняя граница диапазона данных равна: значение первого квартиля – межкваритльный диапазон * 1,5.
- Верхняя граница диапазона данных равна: значение третьего квартиля + расширенных диапазон * 1,5.
Как показано на рисунке ячейки E5 и E6 содержат вычисленные значения верхней и нижней границы диапазона данных. Каждое значение, которое больше верхней границы нормы или меньше нижней границы нормы считается значением статистического выброса.
Чтобы выделить цветом для улучшения визуального анализа данных можно создать простое правило для условного форматирования.
Выборка статистических выбросов с помощью квартилей в Excel
Чтобы создать правило для условного форматирования по выше описанным инструкциям, сделайте следующее:
- Выделите целевой диапазон ячеек (в данном примере B2:B19) и выберите инструмент «ГЛАВНАЯ»-«Условное форматирование»-«Создать правило». Появится окно «Создание правила форматирования ячеек», как показано ниже на рисунке:
- Из списка в верхней части окна выберите опцию «Использовать формулу для определения форматируемых ячеек». Данная опция служит для анализа значений в ячейках выделенного диапазона, с помощью определенной формулы с логическим выражением. Если в результате вычислений формулой, по какому-то из значений будет возвращено логическое значение ИСТИНА, тогда в этой ячейке будет применятся условное форматирование.
- В полю для введения формулы введите логическое выражение представленное на данном шаге. Обратите внимание на то, что в формуле используется относительная ссылка на целевую ячейку B2. А ссылки на верхнюю и нижнюю границу в ячейках $E$5 и $E$6 являются абсолютными. Два логических выражения помещены внутрь логической функции ИЛИ в качестве аргументов. Если значение целевой ячейки будет больше, чем верхняя граница или же меньше чем нижняя граница, тогда формула возвращает значение ИСТИНА и автоматически применяется условное форматирование.
=ИЛИ(B2<$E$6;B2>$E$5)
- Нажмите на кнопку «Формат» и появится окно «Формат ячеек», в котором находятся все опции для форматирования шрифтов, границ и заливки ячеек. После указания необходимых опций форматирования подтвердите их нажатием на кнопку «ОК» на всех открытых окнах, чтобы получить готовый результат.
В результате выделены цветом все ячейки, которые содержат значение статистического выброса от медианы.
Подравляю всех посетителей нашего форума с 47 годовщиной провозглашения Дня Охраны Окружающей Среды — Дня Эколога!
Модератор: Raccoon
-
DeadLine
- Administrator
- Сообщения: 11490
- Зарегистрирован: 03 май 2006, 06:37
- Откуда: Тюмень
- Благодарил (а): 350 раз
- Поблагодарили: 585 раз
- Контактная информация:
Программы по расчету выбросов в Microsoft Excel
Тема посвящена программам по экологии выполненным в Microsoft Excel.
Если у вас есть такие программы, то выкладывайте!
Правила:
1. Название программы
2. Название использованной методики.
3. Описание возможности программы.
4. Ссылка на скачивание программы (вставка вложений под формой ответа «Добавить вложение»)
примечание — перед вставкой файла — архивируйте его любым архивов в формат zip или rar
Перечень размещенных расчетов в Microsoft Excel
-
DeadLine
- Administrator
- Сообщения: 11490
- Зарегистрирован: 03 май 2006, 06:37
- Откуда: Тюмень
- Благодарил (а): 350 раз
- Поблагодарили: 585 раз
- Контактная информация:
Re: Программы в Microsoft Excel
Сообщение
DeadLine » 12 дек 2009, 09:13
Дизель
Программа предназначена для расчетов величин максимально-разовых и валовых выбросов вредных веществ от дизельных установок. Программа основана на «Методике расчета выделений загрязняющих веществ в атмосферу от стационарных дизельных установок», НИИ Атмосфера, Санкт-Петербург, 2001. с учетом рекомендаций «Методического пособия по расчету и нормированию выбросов загрязняющих веществ в атмосферу СПБ».
Программа позволяет рассчитывать величины максимально-разовых и валовых выбросов загрязняющих веществ от стационарных дизельных установок:
— маломощных, быстроходных и повышенной быстроходности;
— средней мощности;
— мощные, средней быстроходности;
— мощные, многоцилиндровые.
Программа содержит следующую справочную информацию:
— по веществам, выбрасываемым при работе дизельной установки;
— по удельным выбросам от дизельных установок различных типов.
У вас нет необходимых прав для просмотра вложений в этом сообщении.
-
А. Сивяков
- Верховный гуру
- Сообщения: 3701
- Зарегистрирован: 29 ноя 2009, 21:01
- Награды: 2
- Откуда: Пермь
- Благодарил (а): 2 раза
- Поблагодарили: 220 раз
Re: Программы в Microsoft Excel
Сообщение
А. Сивяков » 12 дек 2009, 13:02
Давайте, попробуем. Когда я начинал семь лет назад делать проекты, то по совету одного знающего человека купил только две программы по расчету выбросов: котельные и автотранспорт, а по всем остальным методикам сделал для себя удобные программки в Excel. Все программы сделаны по одному шаблону, в виде таблицы. В эту таблицу заносятся исходные данные, она же является и отчетной формой, я ее копирую в файл проекта. Конечно, у доморощенных программ есть существенный недостаток — они сделаны «под себя» и не имеют многих свойств настоящего программного продукта, скажем, их по незнанию легко испортить (но это можно обойти — всегда надо сохранять резервную копию). И еще я думаю, что все-равно пользователь таких программ должен хорошо знать саму методику, по которой программа создана. Ну да ладно, лиха беда начало. Выкладываю программку по расчету выбросов от металлообрабатывающего оборудования. Название методики есть в файле. Производится расчет максимально-разовых и валовых выбросов от м/о станков. В строчке «Синхронность работы с другими группами станков» ставите «1», если данный станок работает синхронно (одновременно) с другими, и «0» в противном случае. Удельные показатели выделений можно ставить какие вам надо.
По такому образу и подобию у меня созданы программки и на все остальные методики. Очень помогает в работе, особенно когда приходится считать много вариантов.
Не стреляйте в пианиста, он играет как умеет!
У вас нет необходимых прав для просмотра вложений в этом сообщении.
Если соберем волю каждого в одну волю – выстоим.
Если соберем совесть каждого в одну совесть – выстоим.
Если соберем любовь каждого к России в одну любовь – выстоим.
Иоанн Кронштадский
-
DeadLine
- Administrator
- Сообщения: 11490
- Зарегистрирован: 03 май 2006, 06:37
- Откуда: Тюмень
- Благодарил (а): 350 раз
- Поблагодарили: 585 раз
- Контактная информация:
Re: Программы в Microsoft Excel
Сообщение
DeadLine » 18 дек 2009, 04:54
Полигоны ТБО
Программа «Полигоны ТБО» предназначена для расчета загрязняющих веществ в атмосферу от полигонов твердых бытовых и промышленных отходов в соответствии с «Методикой расчета количественных характеристик выбросов загрязняющих веществ в атмосферу от полигонов твердых бытовых и промышленных отходов», Москва, 2004 и Письмом НИИ Атмосфера 07-2/248-а от 16.03.2007 г.
В программе заложены данные по основным газообразным загрязняющим веществам, составляющим биогаз, выделяющийся в результате биотермического анаэробного процесса распада органических составляющих твердых бытовых и промышленных отходов. Качественный количественный состав биогаза может отличаться от имеющегося в программе, поэтому существует возможность уточнения его в каждом конкретном случае.
Программа разработана на платформе Microsoft Excel
У вас нет необходимых прав для просмотра вложений в этом сообщении.
-
Kazak
- Новичок
- Сообщения: 38
- Зарегистрирован: 10 авг 2007, 22:50
- Благодарил (а): 1 раз
- Поблагодарили: 21 раз
Re: Программы в Microsoft Excel
Сообщение
Kazak » 20 дек 2009, 23:24
Оцените моё
У вас нет необходимых прав для просмотра вложений в этом сообщении.
-
Kazak
- Новичок
- Сообщения: 38
- Зарегистрирован: 10 авг 2007, 22:50
- Благодарил (а): 1 раз
- Поблагодарили: 21 раз
Re: Программы в Microsoft Excel
Сообщение
Kazak » 23 дек 2009, 00:29
Сварку исправлю и вылажу снова. А пока посмотрите следующее:
У вас нет необходимых прав для просмотра вложений в этом сообщении.
-
Hunter
- Профи
- Сообщения: 709
- Зарегистрирован: 04 июн 2007, 15:55
- Откуда: Россия
- Благодарил (а): 5 раз
- Поблагодарили: 23 раза
Re: Программы в Microsoft Excel
Сообщение
Hunter » 23 дек 2009, 14:06
А. Сивяков , вот держи конвертор
У вас нет необходимых прав для просмотра вложений в этом сообщении.
Ищущий да обрящет…
-
Олег
- Профи
- Сообщения: 527
- Зарегистрирован: 13 мар 2007, 22:21
- Откуда: Екатеринбург
- Благодарил (а): 5 раз
- Поблагодарили: 16 раз
Re: Программы в Microsoft Excel
Сообщение
Олег » 23 дек 2009, 18:00
Принято считать, что аэрозоль все таки высыхает, поэтому пересчитываем растворители отдельно и отдельно сухой остаток в 30% улетевшего аэрозоля. Мы принимаем его как взвешенные вещества.
-
Kazak
- Новичок
- Сообщения: 38
- Зарегистрирован: 10 авг 2007, 22:50
- Благодарил (а): 1 раз
- Поблагодарили: 21 раз
Re: Программы в Microsoft Excel
Сообщение
Kazak » 23 дек 2009, 18:37
Окрасочный аэрозоль в програмке учитывается при всех способах окраски кроме окунания. Просто были скрыты не нужные строки. Выкладываю в 2003 экселе:
У вас нет необходимых прав для просмотра вложений в этом сообщении.
-
Kazak
- Новичок
- Сообщения: 38
- Зарегистрирован: 10 авг 2007, 22:50
- Благодарил (а): 1 раз
- Поблагодарили: 21 раз
Re: Программы в Microsoft Excel
Сообщение
Kazak » 23 дек 2009, 23:53
За основу програмки был взят «интеграловский» расчёт
Что как и почему расчёт именно такой… не могу знать.
Выкладываю ещё раз сварку и проверочный расчёт по программе сварка интеграл
У вас нет необходимых прав для просмотра вложений в этом сообщении.
-
А. Сивяков
- Верховный гуру
- Сообщения: 3701
- Зарегистрирован: 29 ноя 2009, 21:01
- Награды: 2
- Откуда: Пермь
- Благодарил (а): 2 раза
- Поблагодарили: 220 раз
Re: Программы в Microsoft Excel
Сообщение
А. Сивяков » 24 дек 2009, 09:01
Получается, что поправочный коэффициент Q применяется для неорганической пыли. Я про это не знаю, видимо существует некое методическое письмо, может кто в курсе?
Я когда определяю расход электродов в час — «танцую» что называется от жизни. Пачка обычных электродов (3-мм) весит около 4,5 кг. Электродов там как правило 130-140 штук. В подавляющем большинстве случаев мы с вами обсчитываем сварочные посты ремонтных подразделений, где работа не очень интенсивная. Пока сварщик примерится, приладится, покурит, короче за час сожжет 8-10 электродов. Я при обследовании объекта со сварщиками этот момент уточняю (без присутствия начальства, а то начинаются преувеличения). Таким образом, расход электродов в 1 кг/час — вещь весьма редкая, обычно 0,2-0,4 кг/час.
Программой Интеграла не пользовался, но поскольку они заложили такой расчетный алгоритм, то получается можно и так, интеграловцы ведь в авторитете.
Надо вам проверить орфографию в программе — есть ошибки. По резке напишу позже.
Если соберем волю каждого в одну волю – выстоим.
Если соберем совесть каждого в одну совесть – выстоим.
Если соберем любовь каждого к России в одну любовь – выстоим.
Иоанн Кронштадский
-
- Мастер рекламы
- Контактная информация:
Вернуться в «Бесплатное программное обеспечение»
Перейти
- Природоохранный форум
- ↳ Охрана природы
- ↳ Экологические проблемы
- Экологический форум — Белоруссия
- ↳ Общие вопросы
- Экологический форум — Украина
- ↳ Общие вопросы
- Экологический форум — Казахстан
- ↳ Общие вопросы
- ↳ Казахстан. Проектная экология
- Экологический форум — Россия
- ↳ Общие вопросы
- ↳ Законодательство
- ↳ Раздел охраны окружающей среды
- ↳ Государственная и Экологическая экспертиза
- ↳ Публичные слушания
- ↳ Экологический мониторинг и контроль
- ↳ Экологический менеджмент и аудит
- ↳ Документация на оборудование
- ↳ Документация на сырье и материалы
- ↳ Библиотека форума
- ↳ Справочник организаций и учреждений
- ↳ Лицензирование
- ↳ Парниковые газы
- ↳ Законодательство
- ↳ Методическое обеспечение
- ↳ Программное обеспечение
- ↳ Бесплатное программное обеспечение
- ↳ Программное обеспечение
- ↳ Программное обеспечение «Эко центр» Воронеж
- ↳ Программное обеспечение «НПП Логус» Красногорск
- ↳ Программное обеспечение ООО НПП “ЛОГОС-ПЛЮС” Новосибирск
- ↳ Программное обеспечение ООО «Фирма Интеграл» Санкт-Петербург
- ↳ Программное обеспечение ООО Предприятие «ЛиДа инж.»
- ↳ Инженерно-экологические изыскания
- ↳ Изыскания. Законодательство
- ↳ Методическое обеспечение. Инженерно-экологические изыскания
- ↳ Особо охраняемые природные территории
- ↳ ООПТ. Законодательство
- ↳ Объекты археологии и культурного наследия
- ↳ Охрана земель, акты выбора земельных участков, рекультивация
- ↳ Земельные ресурсы. Законодательство
- ↳ Охрана земельных ресурсов
- ↳ Разработка проектов рекультивации земель
- ↳ Отвод и аренда земель
- ↳ Методическое обеспечение. Охрана земель, рекультивация
- ↳ Атмосферный воздух
- ↳ Атмосферный воздух. Законодательство
- ↳ Электроэнергетика и теплоэнергетика
- ↳ Нефтегазовая отрасль
- ↳ Металлургия
- ↳ Химия и нефтехимия
- ↳ Машиностроение, металлообработка, сварка и лакокраска
- ↳ Строительство, склады, хвостохранилища
- ↳ Пищевая промышленность и Сельское хозяйство
- ↳ Транспорт
- ↳ Добывающая промышленность
- ↳ Проект ПДВ и Инвентаризация
- ↳ Другие отрасли промышленности
- ↳ Коды и ПДК веществ
- ↳ Расчеты рассеивания
- ↳ Нормирование выбросов
- ↳ Метеорологические характеристики
- ↳ Фоновые концентрации
- ↳ Методическое обеспечение. Атмосферный воздух
- ↳ Физические воздействия
- ↳ Физические воздействия. Законодательство
- ↳ Шумовое воздействие
- ↳ Вибрация
- ↳ Электромагнитные воздействия
- ↳ Методическое обеспечение. Физические воздействия
- ↳ Санитарно-защитные зоны
- ↳ Санитарные зоны. Законодательство
- ↳ Оценка риска для здоровья населения
- ↳ Методическое обеспечение. Санитарно-защитные зоны
- ↳ Водные ресурсы
- ↳ Водные ресурсы. Законодательство
- ↳ Охрана водных ресурсов
- ↳ Водоохранные зоны
- ↳ Зоны санитарной охраны
- ↳ Разработка проекта НДС
- ↳ Методическое обеспечение. Водные ресурсы
- ↳ Отходы производства и потребления
- ↳ Отходы. Законодательство
- ↳ Расчеты образования отходов
- ↳ Разработка ПНООЛР
- ↳ Коды отходов ФККО
- ↳ Расчет класса опасности отходов
- ↳ Паспортизация отходов
- ↳ Отходы. Лицензирование
- ↳ Утилизация отходов
- ↳ Фирмы и организации по утилизации отходов
- ↳ Методическое обеспечение. Отходы производства и потребления
- ↳ Растительный и животный мир
- ↳ Флора и Фауна. Законодательство
- ↳ Охрана растительности
- ↳ Охрана животного мира
- ↳ Проект освоения лесов
- ↳ Ихтиофауна
- ↳ Методическое обеспечение. Растительный и животный мир
- ↳ Экологические платежи
- ↳ Платежи. Законодательство
- ↳ Экологические риски и ущербы
- ↳ Методическое обеспечение. Экологические платежи
- ↳ Экология на производстве
- ↳ Законодательство на предприятиях
- ↳ Проверки на предприятиях
- Другие разделы проектной документации
- ↳ Промышленная безопасность
- ↳ Законодательство
- ↳ Охрана труда
- ↳ Гражданская оборона и чрезвычайные ситуации
- ↳ Пожарная безопасность
- ↳ Проект организации строительства
- Реклама, события, объявления
- ↳ События, Семинары, Курсы и Тренинги
- ↳ Реклама, Объявления, Предложения, Сотрудничество
- Общий форум
- ↳ Работа
- ↳ Проектные институты и организации
- ↳ Центральный федеральный округ
- ↳ Южный федеральный округ
- ↳ Северо-Западный федеральный округ
- ↳ Дальневосточный федеральный округ
- ↳ Сибирский федеральный округ
- ↳ Уральский федеральный округ
- ↳ Тюменская область, включая ХМАО и ЯНАО
- ↳ Приволжский федеральный округ
- ↳ Северо-Кавказский федеральный округ
- ↳ Вакансии
- ↳ Резюме
- ↳ Специалисты фрилансеры
- ↳ Тендеры и заказы
- ↳ О форуме, сайте
- ↳ Поговоримка
- ↳ Кулинар и Я
- ↳ Командировка
- ↳ Новости
- ↳ Экология в лицах
- ↳ Фильмы, сериалы, кино
- ↳ Корзина
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 0 гостей
17 авг. 2022 г.
читать 3 мин
Выброс — это наблюдение, которое лежит аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.
Мы будем использовать следующий набор данных в Excel, чтобы проиллюстрировать два метода поиска выбросов:
Связанный: Как рассчитать среднее значение, исключая выбросы в Excel
Метод 1: используйте межквартильный диапазон
Межквартильный размах (IQR) — это разница между 75-м процентилем (Q3) и 25-м процентилем (Q1) в наборе данных. Он измеряет разброс средних 50% значений.
Мы можем определить наблюдение как выброс, если оно в 1,5 раза превышает межквартильный размах, превышающий третий квартиль (Q3), или в 1,5 раза превышает межквартильный размах меньше, чем первый квартиль (Q1).
На следующем изображении показано, как рассчитать межквартильный диапазон в Excel:
Затем мы можем использовать формулу, упомянутую выше, чтобы присвоить «1» любому значению, которое является выбросом в наборе данных:
Мы видим, что только одно значение — 164 — оказывается выбросом в этом наборе данных.
Способ 2: использовать z-показатели
Z-оценка показывает, сколько стандартных отклонений данного значения от среднего. Мы используем следующую формулу для расчета z-показателя:
z = (X — μ) / σ
куда:
- X — это одно необработанное значение данных.
- μ — среднее значение населения
- σ — стандартное отклонение населения
Мы можем определить наблюдение как выброс, если его z-оценка меньше -3 или больше 3.
На следующем изображении показано, как рассчитать среднее значение и стандартное отклонение для набора данных в Excel:
Затем мы можем использовать среднее значение и стандартное отклонение, чтобы найти z-оценку для каждого отдельного значения в наборе данных:
Затем мы можем присвоить «1» любому значению, которое имеет z-оценку меньше -3 или больше 3:
Используя этот метод, мы видим, что в наборе данных нет выбросов.
Примечание. Иногда вместо 3 используется z-показатель 2,5. В этом случае отдельное значение 164 будет считаться выбросом, поскольку его z-показатель больше 2,5. При использовании метода z-показателя руководствуйтесь своим здравым смыслом, какое значение z-показателя вы считаете выбросом.
Как обращаться с выбросами
Если в ваших данных присутствует выброс, у вас есть несколько вариантов:
1. Убедитесь, что выброс не является результатом ошибки ввода данных.
Иногда человек просто вводит неправильное значение данных при записи данных. Если присутствует выброс, сначала убедитесь, что значение было введено правильно и что это не ошибка.
2. Удалите выброс.
Если значение является истинным выбросом, вы можете удалить его, если оно окажет значительное влияние на общий анализ. Просто не забудьте упомянуть в своем окончательном отчете или анализе, что вы удалили выброс.
3. Присвойте новое значение выбросу .
Если выброс является результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, такое как среднее или медиана набора данных.
14 апреля 2022 г.
Excel — это приложение для создания электронных таблиц, которое позволяет пользователям создавать базовые или сложные отчеты для хранения данных, анализа и визуализации. При вводе, анализе и интерпретации данных выбросы могут привести к значительным изменениям, влияющим на точность отчета. Понимание этих выбросов может помочь вам идентифицировать их и свести к минимуму потенциальные расхождения, которые они могут вызвать. В этой статье мы обсудим, что такое выбросы в Excel, объясним, как их вычислить, и дадим несколько советов, которые помогут вам.
Выброс в Excel — это точка данных или набор значений, которые значительно отличаются от среднего или ожидаемого диапазона в статистической выборке или делении. Эти выбросы могут быть ненужными аномалиями для целей анализа данных или электронных таблиц. Выбросы могут повлиять на интерпретацию данных и привести к неточным результатам или прогнозам из-за их заметного отличия от остальных представленных данных. Чтобы обеспечить точность отчетов о данных, вы можете идентифицировать, вычислить и минимизировать эти выбросы в электронной таблице Excel.
Как посчитать выбросы в Excel
Рассмотрим эти шаги для расчета выбросов в Excel:
1. Проверьте введенные данные
Процесс ввода данных может привести к ручным или автоматическим ошибкам переноса, что может привести к выбросу значений. Обязательно просмотрите и проверьте данные, введенные в вашу электронную таблицу, чтобы найти и исправить опечатки или другие ошибки, приводящие к неточностям. Вы можете использовать автоматизированные инструменты для просмотра введенных вами данных или вручную проверить значения каждой ячейки.
2. Отсортируйте значения данных
Выберите диапазон вашего набора данных, щелкнув первую ячейку и перетащив поле в правом нижнем углу до последней ячейки. В верхней функциональной ленте Excel щелкните вкладку «Главная», чтобы получить доступ к инструменту «Сортировка и фильтрация», и выберите параметр «Пользовательская сортировка». В раскрывающемся меню категории «Порядок» выберите порядок набора данных от «наименьшего к наибольшему» и нажмите «ОК», чтобы применить изменения.
3. Проанализируйте свои ценности
После сортировки значений в вашем наборе данных вы можете вручную определить большие расхождения данных и выбросы, которые необходимо устранить. Вы можете удалить их из своего набора данных или провести дальнейший расчет, чтобы удалить только статистические аномалии. Для небольших наборов данных вы можете щелкнуть правой кнопкой мыши строку или столбец вашего выпадающего значения и удалить его из электронной таблицы.
4. Определите свои квартили данных
Чтобы вычислить выбросы в вашем наборе данных, рассчитайте свои квартили, используя автоматическую формулу квартилей Excel, начинающуюся с «=QUARTILE(» в пустой ячейке. После левой скобки укажите первую и последнюю ячейки в вашем диапазоне данных, разделенные двоеточием, а затем через запятую и квартиль, который вы хотите определить. Ваша формула может выглядеть примерно так: «=КВАРТИЛЬ(A5:A50, 1)» или «=КВАРТИЛЬ(B2:B200, 3)».
5. Определите межквартильный диапазон
Межквартильный представляет собой ожидаемый средний диапазон вашего набора данных без выпадающих значений. Вы можете рассчитать межквартильный диапазон, вычитая первый квартиль из третьего квартиля. В пустой ячейке укажите ячейку с формулой третьего квартиля, знак минус и ячейку с формулой первого квартиля, чтобы ввести что-то вроде «C2-C1», и нажмите клавишу ввода, чтобы Excel вычислил ее.
6. Вычислите верхнюю и нижнюю границы
Определение верхней и нижней границ вашего набора данных позволяет вам идентифицировать значения, большие или меньшие, чем каждое, соответственно, чтобы найти выбросы. Чтобы найти верхнюю границу вашего диапазона данных, умножьте межквартильный диапазон на 1,5 и прибавьте его к значению третьего квартиля, чтобы создать формулу, например «=C2+(1,5*C3)». Чтобы найти нижнюю границу диапазона данных, умножьте межквартильный диапазон на 1,5 и вычтите его из значения первого квартиля, чтобы создать формулу, например, «=C1-(1,5*C3)».
7. Удалите выбросы
После определения верхней и нижней границ вашего набора данных просмотрите свои значения, чтобы найти те, которые выше верхней границы или ниже нижней границы. Вы можете рассматривать эти значения как статистические выбросы, чтобы удалить их из набора данных для более точного анализа или визуализации отчетов. Удалите их из электронной таблицы, щелкнув правой кнопкой мыши ячейку или ячейки с посторонними значениями и выбрав их удаление.
Советы по вычислению выбросов в Excel
Вот несколько советов, которые помогут вам рассчитать выбросы в Excel:
Отрегулируйте внешние значения
В зависимости от цели вашего отчета электронной таблицы вы можете рассмотреть возможность корректировки значений ваших выбросов, а не их вычисления, чтобы упростить процесс анализа. Вы можете выявить явные несоответствия значений и скорректировать их, чтобы они соответствовали максимальному значению в среднем диапазоне. Это позволяет вам поддерживать количество собранных вами точек данных, отражая при этом соответствующие значения, необходимые для вашего отчета.
Посмотрите на визуализации данных
С помощью набора инструментов и функций Excel вы можете создавать визуализации данных, такие как графики и графики. Вы можете создать автоматическую визуализацию на основе введенного вами диапазона данных, чтобы увидеть среднюю тенденцию ваших точек данных, а также выпадающие точки данных, которые отделены от среднего диапазона. Визуализация данных может помочь вам выявить существенные расхождения, чтобы удалить или исключить их из результатов вашего отчета.
Сократите диапазон данных
Вы можете использовать функцию автоматической обрезки диапазона данных Excel, чтобы исключить указанный процент значений из самой высокой и самой низкой частей вашего набора данных. Чтобы использовать эту функцию, введите «=TRIMMEAN(» в пустой ячейке, чтобы начать формулу. После левой скобки укажите первую и последнюю ячейки в диапазоне, разделенные двоеточием, затем процент, который вы хотите обрезать, и правую круглые скобки, чтобы создать формулу, аналогичную формуле «=ОБРЕЗАТЬСРЕДН(A5:A50, 0,25)».
Обратите внимание, что ни одна из компаний или продуктов, упомянутых в этой статье, не связана с компанией Indeed.
Outliers as the name suggest are something that doesn’t fall in the required/given range. Outliers in statistics need to be removed because they affect the decision that is to be made after performing the required calculations. Outliers generally make the decision skewed i.e they move the decision in a positive or negative direction. Sometimes it is easy to find an outlier by looking at the data but it is difficult to find an outlier when the data is large. We’ll see this with the help of an example, given a dataset and you need to perform the average of the dataset 1, 89, 57, 100, 150, 139, 49, 87, 200, 250. So, the average of the given data set is 112.2. But, it is clearly visible that 1, 200, and 250 are ranges that are too small or too large to be a part of the dataset. These ranges are known as outliers in data. After removing the outliers, the average becomes 95.85. It is evidently seen from the above example that an outlier will make decisions based.
Finding Outliers using Sorting in Excel
This is one of the easiest ways to find outliers in MS excel when your data is not huge because by having a look at the data you’ll get to know about the values that are far away from the originally recorded values.
From the above image, we can clearly tell that the data is not sorted and hence it would take some time for us to identify outliers.
While looking at Img. 2, we can clearly say that the numbers 1, 200, and 250 are outliers.
Finding Outliers using LARGE/SMALL Excel Function
Another way to find outlier is by using built-in MS Excel functions known as LARGE and SMALL. The LARGE function will return the largest value from the array of data and the SMALL function will return the smallest value. Here, we will be using a LARGE and SMALL function which is an in-built function in Microsoft excel. Consider the example used above:
LARGE Function Syntax:
LARGE($B$1:$B$12, 1)
Here, we are passing an array and a number. The array has the dataset for which we have to find the outlier and the number, 1, represents the first largest number from the array. If we use 2, it will return the second largest value from the array. Now when we use this function in the above example, we will get the following output:
SMALL Function Syntax:
SMALL($B$1:$B$12, 1)
The syntax and pass-on value are the same. Now when we use this function in the above example, we will get the following output:
Note: If there are multiple outliers in the data then you have to use the function again and again.
Finding Outliers using Inter Quartile Range(IQR)
The data presented in the above example has a small sample size but when it comes to a real-life situation, the data can be huge, and that’s where the original problem arrives. As per IQR, An outlier is any point of data that lies over 1.5 times IQRs below the first quartile (Q1) and 1.5 times IQR above the third quartile (Q3)in a data set.
Formula is
High = Q3 + 1.5 * IQR
Low = Q1 – 1.5 * IQR
Finding Outliers using the following steps:
Step 1: Open the worksheet where the data to find outlier is stored.
Step 2: Add the function QUARTILE(array, quart), where an array is the data set for which the quartile is being calculated and a quart is the quartile number. In our case, the quart is 1 because we wish to calculate the 1st quartile to calculate the lowest outlier.
Quart Number | Quartile Returns |
0 | Minimum Value |
1 | First quartile(25th percentile) |
2 | Median Value(50th percentile) |
3 | Third Quartile(75th percentile) |
4 | Maximum Value |
Step 3: Similar to step 2 add the quartile formula under Q3 and write 3 as quart number because we wish to calculate the 3rd quartile i.e 75th percentile to calculate the highest quartile value.
Step 4: Inter Quartile Range or IQR is Q3-Q1, put the formula to get the IQR value.
Step 5: To find the High value, the formula is Q3+(1.5*IQR). Similarly, for Low value, the formula is Q1-(1.5*IQR)
Step 6: To find whether the number in the data set is an outlier or not, we need to check whether the data entry is higher than the High value or lower than the Low value. To perform this we will use the OR function. The formula will be OR(B3>$G$3, B3<$H$3). Put the formula in the required cell and drag down the cell adjacent to the last data set, if the value returns TRUE, then the data is an outlier otherwise not.
Since you’ve checked for the outlier data. Now you can remove the outliers and use the rest data for calculations and get unbiased results.
Как за пару минут посчитать выбросы от стоянки автотранспорта
Опубликовано: 15.01.2022
(на базе Excel2010 и выше). Сегодня Вы можете получить программу бесплатно. Бесплатный расчет выбросов от стоянки автотранспорта на эксель.
Вот как выглядит программа:
Расчет выделений загрязняющих веществ выполнен в соответствии с: Методикой проведения инвентаризации выбросов загрязняющих веществ в атмосферу для автотранспортных предприятий (расчетным методом) (утв. Министерством транспорта Российской Федерации, 28.10.1998 г. Согласована Государственным комитетом Российской Федерации по охране окружающей среды и гидрометеорологии 26.08.98 г. № 05-12/16-389).
В отчете у Вас будет весь ход расчета, по каждому виду автомобилей. Как будто расчет проведен вручную.
Чтобы воспользоваться расчетом подпишитесь на рассылку и укажите адрес электонной почты, на который выслать ссылку на программу.
Откройте Вашу почту и подтвердите свое согласие на получение писем (кликните на ссылку в письме).
В первом письме придет ссылка на программу для расчета выбросов от автостоянки.
Отписаться можно будет в любой момент — ссылка на отписку будет в каждом письме.
Дмитрий Афанасьев.
eco-profi@yandex.ru
* Как и все программы в мире, это приложение распространяется «как есть». Если что-то пошло не так — просто удалите файл и не используйте его в работе.
Но лучше все же сделайте скриншот ошибки и вышите мне, как знать, может будет минутка и я все поправлю.
Программа работает в среде Excel2010 и более поздних.
Возможно, работает в альтернативных офисных программах (но я не тестировал, точно сказать не могу).
Только в русифицированных версиях.
На чтение 5 мин. Просмотров 4k. Опубликовано 21.06.2019
Содержание
- Быстрый пример
- Как найти выбросы в ваших данных
- Шаг первый: вычислите квартили
- Шаг второй: оценка межквартильного диапазона
- Шаг третий: вернуть нижнюю и верхнюю границы
- Шаг четвертый: выявить выбросы
- Игнорирование выбросов при расчете среднего значения
Выброс – это значение, которое значительно выше или ниже, чем большинство значений в ваших данных. При использовании Excel для анализа данных выбросы могут искажать результаты. Например, среднее значение набора данных может действительно отражать ваши значения. Excel предоставляет несколько полезных функций, которые помогут вам управлять своими выбросами, поэтому давайте взглянем.
Быстрый пример
На изображении ниже достаточно легко определить выбросы – значение двух, присвоенное Эрику, и значение 173, присвоенное Райану. В таком наборе данных достаточно легко определить и устранить эти выбросы вручную.
В большем наборе данных это не будет иметь место. Очень важно уметь определять выбросы и исключать их из статистических расчетов, и именно это мы и рассмотрим, как это сделать в этой статье.
Как найти выбросы в ваших данных
Чтобы найти выбросы в наборе данных, мы используем следующие шаги:
- Вычислите 1-й и 3-й квартили (мы немного поговорим о том, что это такое).
- Оцените межквартильный диапазон (мы также объясним это чуть ниже).
- Вернуть верхнюю и нижнюю границы нашего диапазона данных.
- Используйте эти границы для определения удаленных точек данных.
Диапазон ячеек справа от набора данных, показанного на рисунке ниже, будет использоваться для хранения этих значений.
Давайте начнем.
Шаг первый: вычислите квартили
Если вы разделите свои данные на кварталы, каждый из этих наборов называется квартилем. Самые низкие 25% чисел в диапазоне составляют 1-й квартиль, следующие 25% – 2-й квартиль и так далее. Сначала мы сделаем этот шаг, потому что наиболее широко используемое определение выброса – это точка данных, которая находится на расстоянии более 1,5 межквартильных диапазонов (IQR) ниже 1-го квартиля и 1,5 межквартильных диапазонов выше 3-го квартиля. Чтобы определить эти значения, мы сначала должны выяснить, что такое квартили.
Excel предоставляет функцию QUARTILE для расчета квартилей. Требуется две части информации: массив и кварт.
= QUARTILE (массив, кварт)
массив – это диапазон значений, которые вы оцениваете. И кварта – это число, представляющее квартиль, который вы хотите вернуть (например, 1 для 1-го квартиля, 2 для 2-го квартиля и т. Д.).
Примечание. В Excel 2010 Microsoft выпустила функции QUARTILE.INC и QUARTILE.EXC в качестве улучшений функции QUARTILE. QUARTILE более обратно совместим при работе с несколькими версиями Excel.
Давайте вернемся к нашему примеру таблицы.
Для вычисления 1-го квартиля мы можем использовать следующую формулу в ячейке F2.
= КВАРТИЛЬ (В2: B14,1)
При вводе формулы Excel предоставляет список параметров для аргумента кварта.
Чтобы вычислить третий квартиль, мы можем ввести формулу, аналогичную предыдущей, в ячейку F3, но используя три вместо одного.
= КВАРТИЛЬ (В2: B14,3)
Теперь у нас есть квартильные точки данных, отображаемые в ячейках.
Шаг второй: оценка межквартильного диапазона
Межквартильный диапазон (или IQR) – это средние 50% значений в ваших данных. Он рассчитывается как разница между значением 1-го квартиля и 3-го квартиля.
Мы собираемся использовать простую формулу в ячейке F4, которая вычитает 1-й квартиль из 3-го квартиля:
= F3-F2
Теперь мы можем видеть наш межквартильный диапазон.
Шаг третий: вернуть нижнюю и верхнюю границы
Нижние и верхние границы – это самые маленькие и самые большие значения диапазона данных, которые мы хотим использовать. Любые значения, меньшие или большие, чем эти связанные значения, являются выбросами.
Мы рассчитаем нижний предел границы в ячейке F5, умножив значение IQR на 1,5, а затем вычтя его из точки данных Q1:
= F2- (1,5 * F4)
Примечание . В этой формуле скобки не обязательны, так как часть умножения будет рассчитываться до части вычитания, но она облегчает чтение формулы.
Чтобы вычислить верхнюю границу в ячейке F6, мы снова умножим IQR на 1,5, но на этот раз добавим его в точку данных Q3:
= F3 + (1,5 * F4)
Шаг четвертый: выявить выбросы
Теперь, когда мы настроили все наши базовые данные, пришло время идентифицировать наши отдаленные точки данных – те, которые ниже, чем нижнее граничное значение, или выше, чем верхнее граничное значение.
Мы будем использовать функцию ИЛИ, чтобы выполнить этот логический тест и показать значения, которые соответствуют этим критериям, введя следующую формулу в ячейку C2:
= ИЛИ (В2 $ F $ 6)
Затем мы скопируем это значение в наши ячейки C3-C14. Значение TRUE указывает на выброс, и, как вы можете видеть, у нас есть два в наших данных.
Игнорирование выбросов при расчете среднего значения
Используя функцию QUARTILE, мы рассчитаем IQR и работаем с наиболее широко используемым определением выброса. Однако при расчете среднего значения для диапазона значений и игнорировании выбросов существует более быстрая и простая функция для использования. Этот метод не будет идентифицировать выброс как прежде, но он позволит нам быть гибкими с тем, что мы могли бы считать нашей частью выброса.
Функция, которая нам нужна, называется TRIMMEAN, и вы можете увидеть ее синтаксис ниже:
= TRIMMEAN (массив, проценты)
массив – это диапазон значений, которые вы хотите усреднить. процент – это процент точек данных, которые нужно исключить из верхней и нижней частей набора данных (вы можете ввести его в процентах или десятичном значении).
Мы ввели формулу ниже в ячейку D3 в нашем примере, чтобы вычислить среднее значение и исключить 20% выбросов.
= TRIMMEAN (B2: B14, 20%)
Там у вас есть две разные функции для обработки выбросов. Независимо от того, хотите ли вы определить их для каких-либо потребностей в отчетности или исключить их из вычислений, таких как средние значения, в Excel есть функция, отвечающая вашим потребностям.
Для подготовки данных и анализа влияния факторов рекомендуем сделать сводную таблицу.
Например, для анализа выбросов по товарам сделаем сводную таблицу – товары / клиенты:
Скачать файл с примером…
Установите кнопку в ячейку, с которой хотите начать анализ выбросов и нажмите кнопку «Подготовить данные» — > “По всем рядам”:
Программа цветом выделит выбросы и грубые ошибки по каждому ряду:
Для анализа, какой клиент повлиял на результат выброса продаж, раскрываем товары по клиентам в сводной:
Находим клиента в источнике данных и убираем выброс:
Обновляем сводную таблицу, убираем следующие выбросы!
Скачать файл с примером…
Содержание:
- Что такое выбросы и почему их важно найти?
- Найдите выбросы путем сортировки данных
- Поиск выбросов с помощью квартильных функций
- Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ
- Как правильно обращаться с выбросами
- Удалить выбросы
- Нормализовать выбросы (отрегулировать значение)
При работе с данными в Excel у вас часто возникают проблемы с обработкой выбросов в наборе данных.
Выбросы довольно часто встречаются во всех видах данных, и важно идентифицировать и обрабатывать эти выбросы, чтобы убедиться, что ваш анализ правильный и значимый.
В этом уроке я покажу вам как найти выбросы в Excel, а также некоторые методы, которые я использовал в своей работе для обработки этих выбросов.
Что такое выбросы и почему их важно найти?
Выброс — это точка данных, которая выходит за рамки других точек данных в наборе данных. Если у вас есть выброс в данных, это может исказить ваши данные, что может привести к неверным выводам.
Приведу простой пример.
Допустим, 30 человек едут на автобусе из пункта назначения A в пункт назначения B. Все люди относятся к одной весовой группе и группе доходов. Для целей этого руководства давайте предположим, что средний вес составляет 220 фунтов, а средний годовой доход — 70 000 долларов.
Сейчас где-то посередине нашего маршрута автобус останавливается, и в него садится Билл Гейтс.
Как вы думаете, как это повлияет на средний вес и средний доход людей в автобусе?
Хотя средний вес вряд ли сильно изменится, средний доход пассажиров автобуса резко вырастет.
Это связано с тем, что доход Билла Гейтса является исключением в нашей группе, и это дает нам неправильную интерпретацию данных. Средний доход каждого пассажира автобуса составит несколько миллиардов долларов, что намного превышает реальную стоимость.
При работе с фактическими наборами данных в Excel вы можете иметь выбросы в любом направлении (например, положительный выброс или отрицательный выброс).
И чтобы убедиться, что ваш анализ верен, вам нужно каким-то образом идентифицировать эти выбросы, а затем решить, как лучше всего их лечить.
Теперь давайте рассмотрим несколько способов найти выбросы в Excel.
Найдите выбросы путем сортировки данных
С небольшими наборами данных быстрый способ определить выбросы — просто отсортировать данные и вручную просмотреть некоторые значения в верхней части отсортированных данных.
А так как выбросы могут быть в обоих направлениях, убедитесь, что вы сначала отсортировали данные в порядке возрастания, а затем в порядке убывания, а затем перебрали самые верхние значения.
Позвольте мне показать вам пример.
Ниже у меня есть набор данных, в котором у меня есть продолжительность звонков (в секундах) для 15 звонков в службу поддержки.
Ниже приведены шаги по сортировке этих данных, чтобы мы могли идентифицировать выбросы в наборе данных:
- Выберите заголовок столбца, который вы хотите отсортировать (в этом примере ячейка B1).
- Перейдите на вкладку «Главная«
- В группе «Редактирование» щелкните значок «Сортировка и фильтр».
- Щелкните Custom Sort (Пользовательская сортировка).
- В диалоговом окне «Сортировка» выберите «Продолжительность» в раскрывающемся списке «Сортировка по» и «От наибольшего к наименьшему» в раскрывающемся списке «Порядок».
- Нажмите ОК
Вышеупомянутые шаги сортируют столбец продолжительности звонка с наивысшими значениями вверху. Теперь вы можете вручную просмотреть данные и посмотреть, есть ли выбросы.
В нашем примере я вижу, что первые два значения намного выше остальных значений (а два нижних намного ниже).
Примечание. Этот метод работает с небольшими наборами данных, где вы можете вручную сканировать данные. Это не научный метод, но он хорошо работает
Поиск выбросов с помощью квартильных функций
Теперь давайте поговорим о более научном решении, которое поможет вам определить, есть ли какие-то выбросы.
В статистике квартиль составляет четверть набора данных. Например, если у вас есть 12 точек данных, то первый квартиль будет тремя нижними точками данных, второй квартиль будет следующими тремя точками данных и так далее.
Ниже приведен набор данных, по которому я хочу найти выбросы. Для этого мне нужно будет вычислить 1-й и 3-й квартили, а затем с его помощью вычислить верхний и нижний предел.
Ниже приведена формула для вычисления первого квартиля в ячейке E2:
= QUARTILE.INC ($ B $ 2: $ B $ 15,1)
и вот тот, который вычисляет третий квартиль в ячейке E3:
= QUARTILE.INC ($ B $ 2: $ B $ 15,3)
Теперь я могу использовать два вышеупомянутых вычисления, чтобы получить межквартильный размах (который составляет 50% наших данных в пределах 1-го и 3-го квартилей).
= F3-F2
Теперь мы будем использовать межквартильный диапазон, чтобы найти нижний и верхний предел, который будет содержать большую часть наших данных.
Все, что выходит за эти нижние и верхние пределы, будет считаться выбросом.
Ниже приведена формула для расчета нижнего предела:
= Квартиль1 - 1,5 * (Межквартильный диапазон)
который в нашем примере становится:
= F2-1,5 * F4
И формула для расчета верхнего предела:
= Квартиль3 + 1,5 * (Межквартильный диапазон)
который в нашем примере становится:
= F3 + 1,5 * F4
Теперь, когда у нас есть верхний и нижний предел в нашем наборе данных, мы можем вернуться к исходным данным и быстро определить те значения, которые не лежат в этом диапазоне.
Быстрый способ сделать это — проверить каждое значение и вернуть ИСТИНА или ЛОЖЬ в новом столбце.
Я использовал приведенную ниже формулу ИЛИ, чтобы получить ИСТИНА для тех значений, которые являются выбросами.
= ИЛИ (B2 $ F $ 6)
Теперь вы можете фильтровать столбец Outlier и отображать только те записи, для которых значение TRUE.
Кроме того, вы также можете использовать условное форматирование, чтобы выделить все ячейки, в которых значение TRUE.
Примечание: Хотя это более распространенный метод поиска выбросов в статистике. Я считаю, что этот метод немного непригоден для использования в реальных сценариях. В приведенном выше примере нижний предел, рассчитанный по формуле, равен -103, в то время как набор данных, который у нас есть, может быть только положительным. Таким образом, этот метод может помочь нам найти выбросы в одном направлении (высокие значения), он бесполезен при выявлении выбросов в другом направлении.
Поиск выбросов с помощью функций НАИБОЛЬШИЙ / МАЛЕНЬКИЙ
Если вы работаете с большим количеством данных (значения в нескольких столбцах), вы можете извлечь 5 или 7 наибольших и наименьших значений и посмотреть, есть ли в них выбросы.
Если есть какие-либо выбросы, вы сможете их идентифицировать, не просматривая все данные в обоих направлениях.
Предположим, у нас есть приведенный ниже набор данных, и мы хотим знать, есть ли какие-либо выбросы.
Ниже приведена формула, которая даст вам наибольшее значение в наборе данных:
= БОЛЬШОЙ ($ B $ 2: $ B $ 16,1)
Точно так же второе по величине значение будет равно
= БОЛЬШОЙ ($ B $ 2: $ B $ 16,1)
Если вы не используете Microsoft 365, в которой есть динамические массивы, вы можете использовать приведенную ниже формулу, и она даст вам пять наибольших значений из набора данных с помощью одной формулы:
= БОЛЬШОЙ ($ B $ 2: $ B $ 16; СТРОКА ($ 1: 5))
Точно так же, если вам нужны 5 наименьших значений, используйте следующую формулу:
= МАЛЕНЬКИЙ ($ B $ 2: $ B $ 16; СТРОКА ($ 1: 5))
или следующее, если у вас нет динамических массивов:
= МАЛЕНЬКИЙ ($ B $ 2: $ B $ 16,1)
Когда у вас есть эти значения, очень легко обнаружить любые выбросы в наборе данных.
Хотя я решил извлечь 5 наибольших и наименьших значений, вы можете выбрать 7 или 10 в зависимости от размера вашего набора данных.
Я не уверен, является ли это приемлемым методом для поиска выбросов в Excel или нет, но это метод, который я использовал, когда мне приходилось работать с большим количеством финансовых данных на моей работе несколько лет назад. По сравнению со всеми другими методами, описанными в этом руководстве, я считаю этот наиболее эффективным.
Как правильно обращаться с выбросами
До сих пор мы видели методы, которые помогут нам найти выбросы в нашем наборе данных. Но что делать, если вы знаете, что есть выбросы.
Вот несколько методов, которые вы можете использовать для обработки выбросов, чтобы ваш анализ данных был правильным.
Удалить выбросы
Самый простой способ удалить выбросы из набора данных — просто удалить их. Таким образом, это не исказит ваш анализ.
Это более жизнеспособное решение, когда у вас большие наборы данных и удаление пары выбросов не повлияет на общий анализ. И, конечно же, перед удалением данных обязательно создайте копию и выясните, что вызывает эти выбросы.
Нормализовать выбросы (отрегулировать значение)
Нормализация выбросов — это то, что я делал, когда работал полный рабочий день. Для всех значений выбросов я бы просто изменил их на значение, немного превышающее максимальное значение в наборе данных.
Это гарантирует, что я не удаляю данные, но в то же время не позволяю им искажать мои данные.
Чтобы дать вам реальный пример, если вы анализируете маржу чистой прибыли компаний, где большинство компаний находится в пределах от -10% до 30%, а есть несколько значений, превышающих 100%, я просто изменит эти выбросы на 30% или 35%.
Итак, вот некоторые из методов, которые вы можете использовать в Excel, чтобы найти выбросы.
После того, как вы определили выбросы, вы можете углубиться в данные и посмотреть, что их вызывает, и в то же время выбрать один из методов обработки этих выбросов (который может удалить их или нормализовать, изменив значение)
Надеюсь, вы нашли этот урок полезным.