График рассеяния в excel

В окружающем мире очень много взаимосвязей между объектами, предметами, событиями, отношениями и т.д. Например, между количеством заключенных контрактов и трудовыми затратами, между сбытом и доходами населения, между образованием и уровнем заработной платы, вмешательством государства и состоянием экономики. Каждое из измерений в этих парах можно изучать по отдельности. Как одномерную совокупность. Но реальный результат получается лишь при изучении обоих измерений, взаимосвязи между ними.

При работе с двумерными данными обычно рисуют диаграммы рассеяния. Другие названия – «диаграммы разброса», «точечные диаграммы». Подобные графики показывают значения двух переменных в виде точек. Если в двумерных данных содержатся какие-либо проблемы (выбросы), то их легко будет обнаружить с помощью соответствующей диаграммы разброса.

Что показывает диаграмма рассеяния

Диаграмма рассеяния – один из инструментов статистического контроля, анализа. С ее помощью выявляется зависимость и характер связи между двумя разными параметрами экономического явления, производственного процесса. Диаграмма разброса показывает вид и тесноту взаимосвязи между парами данных. К примеру, между:

  1. качеством продукта и влияющим фактором;
  2. двумя разными характеристиками качества;
  3. двумя обстоятельствами, влияющими на качество, и т.п.

Диаграммы рассеяния применяются для обнаружения корреляции между данными. Если корреляционная зависимость присутствует, то установить контроль над наблюдаемым явлением значительно проще.



Построение диаграммы рассеяния в Excel

Диаграмма разброса представляет наблюдаемое явление в пространстве двух измерений. Если одну величину рассматривать как «причину», влияющую на другую величину, то ей будет соответствовать ось Х (горизонтальная ось). Реагирующей на это влияние величине соответствует ось Y (вертикальная ось). Когда четко классифицировать переменные невозможно, распределение производится пользователем.

Построим диаграмму рассеяния для небольшой двумерной совокупности данных:

Продажи.

Предположим, что затраченные усилия каждого менеджера повлияли на результат его работы (так принято считать). Следовательно, число контактов необходимо показать на горизонтальной оси, а продажи (результат затраченных усилий) – на вертикальной.

Для построения диаграммы рассеяния в Excel выделим столбцы «Контакты», «Объем продаж» (включая заголовки). Перейдем на вкладку «Вставка» в группу «Диаграммы». Использование данного инструмента анализа возможно с помощью точечных диаграмм:

Точечная.

По умолчанию программа построила диаграмму разброса такого вида:

Объем.

Изменим параметры горизонтальной и вертикальной оси, чтобы четыре пары показателей расположились более равномерно в области построения. Щелкнем сначала правой кнопкой мыши по вертикальной оси. Выберем «Формат оси»:

Оси.

На вкладке «Параметры оси» установим минимальное значение 100 000, а максимальное – 200 000. Показатели объема продаж находятся в этих пределах:

Параметры оси.

Минимальное значение для горизонтальной оси Х – 100, т.к. ниже этого показателя данных в таблице нет.

Для горизонтальной оси Х.

Диаграмма разброса приобрела следующий вид:

Пример1.

Какие можно сделать выводы по данной диаграмме рассеяния:

  1. Каждая точка дает представление об объеме продаж и контактах (как об одномерных совокупностях) и о взаимосвязи между этими параметрами.
  2. Количество контактов (горизонтальная ось) распределилось в диапазоне 140-220. Типичное значение равно примерно 170.
  3. Объемы продаж за анализируемый период (вертикальная ось) находятся в диапазоне примерно от 130 000 до 190 000. Типичное значение равняется приблизительно 150 000.
  4. Взаимосвязь между числом контактов и объемом сбыта является положительной, т.к. точки выстроились слева направо снизу вверх. Следовательно, чем больше у менеджера было контактов с клиентами (точки правее), тем больше прибыли организации он дал (точки выше).


Построим диаграмму рассеяния для различных видов взаимосвязей двух переменных. Сгенерируем различные варианты трендов: линейный, квадратичный и затухающий синусоидальный.


Диаграмма рассеяния

(

scatter

plot

) используется для отображения возможной взаимосвязи между двумя переменными.

Диаграмма рассеяния

незаменима при проведении корреляционного и регрессионного анализа.

Возьмем 2 переменные

Х

и

Y

и, соответственно,

выборку

состоящую из нескольких пар значений (Х i ; Y i ). Для наглядности зададим различные типы зависимости между переменными: линейную, квадратичную и затухающую синусоидальную. Для этого сгенерируем соответствующие тренды и настроим случайный разброс переменной Y (по

нормальному закону

).

Сначала рассмотрим

линейный тренд

Y

=

aX

+

b

(см. Файл примера, лист Линейный ). Параметры тренда (прямой линии)

a

и

b

зададим в отдельной табличке, там же зададим параметры отвечающие за величину

дисперсии

переменной Y.

Величину постоянного разброса (отвечающую за

гомоскедастичность

модели) будем задавать в % от

среднего значения

Y. Иногда,

дисперсия

переменной Y не постоянна (имеется неоднородность наблюдений —

гетероскедастичность

). Поэтому, при построении формул учтем и такую возможность.

Для построения

диаграммы рассеяния

в файле примера использована

диаграмма График

, т.к. шаг по Х у нас задан постоянным. В случае реальных данных (переменная Х является случайной величиной, а не жестко заданной, как в нашем примере) используйте диаграмму типа Точечная. В файле примера реализовано оба варианта.


Примечание

: Подробнее о построении диаграмм см. статьи

Основы построения диаграмм

и

Основные типы диаграмм

.

Отображение информации о 3-х переменных на двухмерной диаграмме

Предположим, что у нас имеются результаты измерения производительности некого непрерывного производственного процесса. Измерения проводились при различных рабочих температурах протекания процесса и в двух режимах.

Нам требуется построить двумерную

диаграмму рассеяния

(на плоскости), хотя у нас имеется 3 переменных:

производительность, температура

и

режим

.

Обратим внимание, что третья переменная

Режим

является категориальной (принимает только значения из ограниченного набора значений). В нашем случае переменная

Режим

принимает 2 значения:

Режим №1

и

Режим №2

(значения 1 и 2 присвоены номинально).

Пары значений (

производительность; температура

), относящиеся к

Режиму №1

будем на

диаграмме рассеяния

выводить красным цветом, а относящиеся к

Режиму №2

будем выводить синим ( файл примера лист 3-переменных ).

Такой же подход можно использовать для

дискретных переменных

, когда они принимают небольшое количество значений: 2-5.

Категоризованные диаграммы

Если третья переменная – непрерывная величина, то для отображения данных можно использовать так называемые

категоризованные диаграммы

(coplot = conditioning plot).

Теперь вместо категориальной переменной

Режим

у нас имеется

непрерывная переменная

Давление

, которая принимает значения от 10 до 20. Предположим, что значение переменной

Давление

= 15, является неким пороговым и протекание процесса значительно отличается, если оно протекает при давлении от 10 до 15 и от 15 до 20. Используя этот факт строят 2 диаграммы:

  • Пары значений (

    производительность; температура

    ) при давлении от 10 до 15:
  • Пары значений (

    производительность; температура

    ) при давлении от 15 до 20.

Если пороговых значений 2, то понадобится 3 диаграммы и т.д. Эти диаграммы строятся аналогично диаграммам из предыдущего раздела.

Матрица диаграмм рассеивания

Для множественной регрессии, когда имеется 3 или более переменных, часто строят

Матрицу диаграмм рассеивания

(Matrix Scatter Plot, Scatter Plot Matrix — SPM).

Если имеется 3 переменных (x 1 , x 2 , y), то строятся 3 обычные

диаграммы рассеяния

отображающие парные взаимосвязи переменных: (x 1 , x 2 ); (x 1 , y); (x 2 , y).


Примечание

: Чтобы найти количество

диаграмм рассеяния

в матрице, необходимо вычислить

число сочетаний

из n по 2, где n – число переменных. Например, для 4-х переменных число диаграмм равно ЧИСЛКОМБ(4;2) =6.

Иногда строят не только диаграмму (x 1 , x 2 ), но и (x 2 , x 1 ). В этом случае матрица будет содержать в 2 раза больше диаграмм рассеяния (см. файл примера лист Matrix ).


Примечание

: Чтобы найти количество

диаграмм рассеяния

в такой (полной) матрице, необходимо вычислить

число перестановок

из n по 2, где n – число переменных. Например, для 4-х переменных число диаграмм равно ПЕРЕСТ(4;2) =12.

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


Матрица диаграммы рассеяния — это матрица диаграмм рассеяния, которая позволяет понять попарные отношения между различными переменными в наборе данных.

В этом руководстве объясняется, как создать следующую матрицу диаграммы рассеяния в Excel:

матрица точечной диаграммы в Excel

Давайте прыгать!

Шаг 1: введите данные

Во-первых, давайте введем следующие значения для набора данных, который содержит три переменные: очки, передачи и подборы.

Шаг 2: Создайте диаграммы рассеяния

Затем выделим диапазон ячеек A2:B9 , затем щелкните вкладку « Вставка », затем нажмите кнопку « Разброс » в группе « Диаграммы ».

Автоматически будет создана следующая диаграмма рассеяния очков и передач:

Далее выполните следующие шаги:

  • Нажмите на значения на оси X и измените минимальную ось, привязанную к 80.
  • Щелкните ось Y и измените минимальное значение оси на 20.
  • Щелкните заголовок диаграммы и удалите его.
  • Нажмите на линии сетки на диаграмме и удалите их.
  • Наконец, измените размер диаграммы, чтобы сделать ее меньше.

Конечный результат должен выглядеть примерно так:

Затем повторите те же самые шаги для переменных очков и подборов и поместите диаграмму рассеяния под существующую диаграмму рассеяния:

Наконец, повторите эти шаги для переменных передач и подборов и поместите диаграмму рассеяния в нижний правый угол:

Шаг 3: Пометьте диаграммы рассеяния

Наконец, введите имена переменных рядом с диаграммами рассеяния, чтобы было легко понять, какие диаграммы рассеяния представляют какие переменные:

матрица точечной диаграммы в Excel

Вот как интерпретировать сюжеты:

  • Диаграмма рассеяния в верхнем левом углу представляет соотношение между очками и передачами.
  • Диаграмма рассеяния в левом нижнем углу представляет соотношение между очками и подборами.
  • Диаграмма рассеяния в правом нижнем углу представляет соотношение между передачами и подборами.

Примечание.Не стесняйтесь изменять цвет и размер точек на диаграммах рассеяния, чтобы они выглядели так, как вам нравится.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в Excel:

Как создать диаграмму рассеяния с несколькими рядами в Excel
Как создать корреляционную матрицу в Excel
Как выполнить корреляционный тест в Excel

Написано

Редакция Кодкампа

Замечательно! Вы успешно подписались.

Добро пожаловать обратно! Вы успешно вошли

Вы успешно подписались на кодкамп.

Срок действия вашей ссылки истек.

Ура! Проверьте свою электронную почту на наличие волшебной ссылки для входа.

Успех! Ваша платежная информация обновлена.

Ваша платежная информация не была обновлена.

A scatter plot is a mathematical diagram made using the Cartesian coordinates which are used to display typically 2D-data sets. These are also known as scatterplot, scatter graph, scatter chart, scatter gram, or scatter diagram.

In this article we will look into how we can create scatter plot in Excel. To do so follow the below steps:

Step 1: Formatting data for Scatter Plot.

We have to make sure that there should be two variables for a set of data.

Step 2: Converting data into Scatter Plot.

First, highlight the data which we want in the scatter plot.

Step 3: Then, click to the Insert tab on the Ribbon. In the Charts group, click Insert Scatter(X, Y) or Bubble Chart.

Step 4: In the resulting menu, click Scatter.

Once we have clicked that, our Scatter Plot will appear.

Step 5: Now, to add label on x-axis and y-axis we have to click to the Design tab on the Ribbon. In the Chart Layouts group, click Quick Layout.

Step 6: In the resulting menu, click Layout 1.

Step 7: Then change the label name of X axis from Axis Title to Year and Y axis from Axis Title to Population.


«СЕМЬ ОСНОВНЫХ ИНСТРУМЕНТОВ КОНТРОЛЯ КАЧЕСТВА»


Диаграмма рассеяния

Что такое диаграмма рассеяния?

Очень часто в производственной, маркетинговой и иных видах деятельности необходимо понять, связаны ли между собой какие-либо явления, и если связаны, то насколько тесно.

Если вы, например, заметили увеличение объёма брака в какую-либо смену, вы вправе предположить, что это связано с трудовой деятельностью того или иного работника. Но как понять, так ли это на самом деле? Или вы считаете, что на тот или иной показатель качества выпускаемого изделия влияет некая технологическая операция, но хотите убедиться в этом и понять, насколько сильно данная операция оказывает влияние на интересующий вас показатель качества. А ваш маркетолог хочет выявить наличие и силу взаимосвязи между типом упаковки и её привлекательностью для потребителя. Директор же по информационным технологиям желает убедиться в том, что переход вашего предприятия на облачные технологии напрямую повлиял на снижение затрат в сфере ИТ, для чего хотел бы выявить связь между таким переходом и затратами, а также силу этой связи.

Практически любую такую связь или, более научно, корреляцию позволяет установить диаграмма рассеяния (другие названия – диаграмма разброса, диаграмма рассеивания, поле корреляции).

Типичный вид диаграммы рассеяния представлен на рисунке 1.

Изображение не загрузилось

Рис. 1. Типичный вид диаграммы рассеяния

Диаграмма рассеяния – инструмент, позволяющий определить вид и тесноту связи между парами соответствующих переменных.

В зависимости от наличия или отсутствия предполагаемых причинно-следственных связей при помощи диаграммы рассеяния можно анализировать зависимость:

  • между влияющим фактором (причиной) и характеристикой (следствием);
  • между двумя характеристиками;
  • между двумя факторами.

Влияющий фактор (причину) иногда называют также факторным признаком, а характеристику (следствие) – результативным признаком.

Если говорить конкретно о качестве, то такие пары переменных чаще всего относятся [1, с. 144; 2, с. 125]:

  • к характеристике качества и влияющему на неё фактору;
  • к двум различным характеристикам качества;
  • к двум факторам, влияющим на одну характеристику качества.

Все три категории анализа крайне важны, поскольку [4]:

  • в первом случае, при наличии корреляционной зависимости, причинный фактор оказывает значительное влияние на характеристику качества, а потому если причинный фактор удерживать под контролем, то можно, во-первых, достичь стабильности характеристики качества, а во-вторых, определить уровень контроля, необходимый для требуемого показателя качества;
  • во втором случае, при наличии корреляционной зависимости между двумя различными характеристиками качества, можно, например, осуществлять контроль только одной из них;
  • в третьем случае наличие корреляционной зависимости между отдельными факторами значительно облегчает контроль процесса с технологической, временнóй и экономической точек зрения.

Если между сопоставляемыми парами переменных предполагается наличие причинно-следственной связи, то при построении диаграммы рассеяния причинные факторы, как правило, обозначаются переменной х и откладываются по горизонтальной оси (оси абсцисс); характеристики же, как правило, обозначаются переменной y и откладываются по вертикальной оси (оси ординат).

Построение диаграммы выполняется в следующей последовательности [1, с. 145–146; 2, с. 126]:

  1. Собираются парные данные (х, у), между которыми мы хотим исследовать зависимость, и заполняется таблица. Желательно собрать не менее 25–30 пар данных.
  2. Определяются максимальные и минимальные значения для х и y. Исходя из разницы между их максимальными и минимальными значениями устанавливаются размеры и шкалы осей, причём их лучше делать примерно одинаковыми, чтобы диаграмма легче читалась.
  3. Строится график, на который наносятся данные. Если на одну и ту же точку графика попадает несколько одинаковых значений, то соответствующие точки обозначаются при помощи концентрических кругов (точка в круге, в двух, трёх кругах) либо рядом с первой точкой наносится вторая, третья точка.
  4. На график наносятся все необходимые обозначения: название диаграммы, её составитель, дата, интервал времени, число пар данных, единицы измерения для каждой оси и т.д.

В зависимости от значений x и y графики могут иметь различный вид, при этом построенные графики надо уметь читать. Посмотрим, как это делается.

Ниже, на рисунке 2, представлены различные виды графиков. График позволяет нам воочию увидеть характер и тесноту связи между соответствующими переменными x и y. Ниже мы также научимся определять степень этой тесноты, называемую коэффициентом корреляции.

Коэффициент корреляции r может принимать значения от -1 до +1, т.е. -1 ≤ r ≤ 1. При этом чем ближе значение коэффициента к ±1, тем теснее связь. Чем ближе оно к нулю, тем связь меньше. В ±1 связь полная (её также называют функциональной, поскольку каждому значению x соответствует строго определённое значение y). В нуле связь отсутствует вообще.

Знак «плюс» или «минус» говорит о направлении связи – прямой или обратной: при плюсе значение y возрастает с возрастанием значения х; при минусе, наоборот, уменьшается.

Что касается оценки тесноты связи, то в разных источниках встречаются разные классификации (градации). Например, в источнике [3, с. 105] даётся следующая классификация:

  • от ±0,81 до ±1,0 – сильная сила связи;
  • от ±0,61 до ±0,8 – умеренная сила связи;
  • от ±0,41 до ±0,6 – слабая сила связи;
  • от ±0,21 до ±0,4 – очень слабая сила связи;
  • от 0 до ±0,2 – связь отсутствует.

А теперь посмотрим на рисунок 2, на котором представлены различные виды диаграммы рассеяния, при этом сверху указаны соответствующие значения коэффициента корреляции r.

Изображение не загрузилось

Рис. 2. Различные виды диаграммы рассеяния в зависимости от тесноты связи

При отсутствии связи (корреляции) между исследуемыми параметрами точки на диаграмме расположены хаотично. Практически ту же самую картину мы видим и при слабой силе связи. Умеренная сила связи характеризуется большей степенью упорядоченности и достаточно равномерной удалённостью нанесённых точек от воображаемой средней линии. Сильная связь в большей степени стремится к такой воображаемой линии, а при r=1 график, собственно говоря, и представляет собой линию.

В случаях, представленных на рис. 2, корреляция носит линейный характер (воображаемая средняя линия – прямая), но в реальной жизни график может иметь иную, нелинейную (криволинейную) форму, например такую, как представлена на рис. 3.

Изображение не загрузилось

Рис. 3. Условный пример нелинейной корреляции

Далее мы научимся рассчитывать коэффициент корреляции. Проще всего его рассчитать в программе MS Excel, и ниже мы покажем, как это делается, но прежде представим математическую формулу расчёта коэффициента корреляции и научимся рассчитывать его самостоятельно – без MS Excel или иной аналогичной программы. Все соответствующие расчёты делаются в рамках так называемого корреляционного анализа.

Корреляционный анализ

Коэффициент корреляции вычисляется по формуле:

Изображение не загрузилось

Допустим, мы собрали 25 (n=25) пар данных x и y и хотим определить коэффициент корреляции между ними. Разместим их в таблице и для удобства расчётов сразу определим значения x2, у2 и xy, чтобы затем просто подставить их в формулу:

Изображение не загрузилось

Подставляем значения в указанную выше формулу и получаем коэффициент корреляции:

Изображение не загрузилось

Диаграмма рассеяния, соответствующая этому массиву пар данных, была представлена выше – на рисунке 1.

Воспользуемся программой MS Excel

Всё сказанное выше, по сути, было теорией, призванной объяснить, что такое диаграмма рассеяния, как её читать и как рассчитать коэффициент корреляции.

В реальной жизни коэффициент корреляции рассчитывается, а диаграмма рассеяния – строится значительно проще и быстрее. Для наглядности будем использовать те же самые значения, что и выше.

Шаг 1 – Составление таблицы и расчёт коэффициента корреляции

В программе Excel составляем таблицу и в любой удобной нам ячейке за пределами таблицы вводим формулу расчёта коэффициента корреляции (Формулы => Другие функции => Статистические => КОРРЕЛ):

Изображение не загрузилось

При нажатии на «КОРРЕЛ» в открывающемся окне в качестве значений «Массив1» и «Массив2» через двоеточие ставим верхнюю и нижнюю ячейки соответствующих колонок х и y (в нашем случае – B2:B26 и C2:C26) и нажимаем на ОК:

Изображение не загрузилось

Итак, коэффициент корреляции рассчитан! Как и при расчётах выше, он равен 0,716. (Если необходимо, измените числовой формат в соответствующей ячейке, а иначе коэффициент может быть округлён до единицы.)

Изображение не загрузилось

В принципе, коль скоро коэффициент корреляции нам уже известен, диаграмма рассеяния не очень-то и нужна. И всё же её иногда полезно построить, чтобы воочию увидеть, как соответствующие точки располагаются.

Шаг 2 – Построение диаграммы рассеяния

Чтобы построить диаграмму рассеяния, открываем вкладку «Вставка», выделяем мышкой ячейки от B2 до С26 в нашем случае (т.е. от верхней ячейки столбца x до нижней столбца y) и нажимаем на значок «Точечная» в разделе «Диаграммы»:

Изображение не загрузилось

Далее, при нажатии на верхний левый значок в выпадающем окне, мы получаем необходимую нам диаграмму рассеяния:

Изображение не загрузилось

Если необходимо, мышкой выравниваем диаграмму (меняем размеры её сторон), перемещаем в нужное нам место на листе и вставляем название диаграммы:

Изображение не загрузилось

Итак, коэффициент корреляции определён, диаграмма рассеяния построена. Поставленная задача нами выполнена.

Что ещё важно знать

Следует учесть, что данный инструмент (диаграмма рассеяния и расчёт коэффициента корреляции) не является стопроцентной гарантией того, что две переменные, имеющие высокий коэффициент корреляции, действительно связаны между собой: существуют так называемые ложные корреляции, при которых расчётное значение коэффициента корреляции высоко, но при этом зависимости одного признака от другого нет. Причины возникновения ложных корреляций могут быть самыми разнообразными, например наличие какого-либо другого, скрытого от нас признака, который влияет одновременно на оба исследуемых нами признака. Так, цена продуктов питания и стоимость жилья могут показывать высокий коэффициент корреляции, но на самом деле эти величины связаны не между собой, а с инфляцией или с ростом стоимости производства. Подобные ситуации – ловушка для исследователей [2, с. 128].

Возможны и обратные ситуации: связь реально существует, но установить её данным инструментом не удалось. Причины этого опять-таки могут быть самыми разными – от недостаточного числа собранных данных до чрезмерно большой ошибки измерения [2, с. 128–129].

Но это не значит, что данным инструментом нельзя пользоваться! Наоборот, это достаточно простое, но эффективное средство статистического анализа. Необходимо всего лишь учитывать, что, во-первых, правильно диаграмму рассеяния и коэффициент корреляции могут оценить только те, кто хорошо знаком с исследуемым процессом; во-вторых, полученный таким образом коэффициент корреляции – это величина случайная и физической константой не является [2, с. 129].

Иными словами, применение данного инструмента требует известной доли осторожности, внимания к деталям и знания сути вопроса.

А что дальше?

Ещё одним важным моментом является то, что коэффициент корреляции позволяет оценить степень тесноты связи между результативным признаком (y) и воздействующим на него фактором (х), но не даёт ответа на вопрос: на сколько единиц изменится результативный признак при изменении фактора на одну единицу? [3, с. 108].

Ответ на этот вопрос можно получить при помощи другого инструмента – регрессионного анализа. Объяснение сути данного анализа выходит за рамки настоящей темы, но с ней можно самостоятельно ознакомиться по различным источникам, например по источнику [3, с. 108].

Вместе с тем один сугубо практический совет на этот счёт мы дадим.

В любой диаграмме рассеяния, построенной в последних версиях программы Excel, можно мгновенно, путём нажатия мышкой на соответствующее поле, как показано на рисунке ниже, построить «линию тренда», т.е. ту самую воображаемую среднюю линию, о который мы говорили выше. Она и даст нам общее представление о характере и величине изменения результативного признака y при изменении воздействующего на него фактора х:

Изображение не загрузилось


Описание представленного инструмента контроля качества мы постарались изложить в максимально простой и доступной форме – в расчёте на то, что его будут читать и, надеемся, применять в работе в том числе и далёкие от математики люди.


Источники:

  1. Васин С.Г. Управление качеством. Всеобщий подход : учебник для бакалавриата и магистратуры / С.Г. Васин. – М. : Издательство Юрайт, 2016.
  2. Гродзенский С.Я. Управление качеством : учебник. – Москва : Проспект, 2017.
  3. Маркетинг: теория и практика : учеб. пособие для бакалавров / под общ. ред. С.В. Карповой. – М. : Издательство Юрайт, 2016.
  4. Диаграмма разброса. / Сайт studfiles.net [Электронный ресурс]. Режим доступа: https://studfiles.net/preview/4499997 (дата обращения: 25.12.2018).


Если вы считаете, что при публикации настоящего материала нарушены ваши авторские права, напишите нам.

If you believe that the publication of this material infringes your copyright, please let us know.

Эта диаграмма помогает наглядно представить зависимость между двумя типами данных. Она может быть полезна, например, когда требуется лучше понять зависимость качества продукции от того или иного существующего фактора. Диаграмму рассеяния можно построить и на бумаге, но сегодня для этого чаще используется программное обеспечение, хорошо подходит Excel, хотя есть и более специальные приложения с расширенным математическим функционалом. Используя Excel, посмотрим, как работает диаграмма на конкретном примере, Excel знает Диаграмму рассеяния, как точечную диаграмму.

Приступим. Нам нужно лучше понять связь между применением определенного оборудования и количеством дефектной продукции. Возьмем число употреблений инструмента, который нас интересует за десять разных дней и измеренную численность бракованной продукции за те же дни.

Теперь, когда у нас есть все необходимые исходные данные, выделим оба столбца левой кнопкой мыши и выберем в меню точечную диаграмму. В зависимости от версии программы у вас между осями координат могут появиться не все точки, а только точки одного ряда. В свойствах диаграммы или в меню к ней будет функция – добавить ряд. Ей-то и нужно воспользоваться, чтобы на графике появились оба типа данных.

В меню диаграммы нужно также выбрать функцию добавления «линии тренда». Линия тренда – это геометрическое отображение средних значений анализируемых показателей.

Благодаря линии тренда мы и получаем возможность ответить на вопрос о том, есть ли связь между использованием нашего инструмента и количеством брака. Если все точки на графике веретенообразно сконцентрировались поблизости от линии тренда, то корреляция есть. Если же они более или менее рассредоточены, как в случае с нашей диаграммой, то никакой связи нет или она очень незначительна.

Даже во многих западных компаниях ручной документооборот с данными по качеству подчас превышает электронный. Поэтому кому-то может быть интересно и то, как диаграмма рассеяния делается в ручную. Это немногим сложнее. При начале работы нужно иметь столбцы сопоставимых данных нескольких типов, которые вы собираетесь сравнивать. Посмотрите, какие значения в ваших рядах чисел являются минимальными и максимальными. Исходя из этого можно рисовать оси для будущей диаграммы. Если числа очень большие, то оси можно масштабировать. После этого на график просто наносятся все необходимые точки. Для расчета линии тренда в математике используется целый ряд формул, каждая из которых хороша под конкретную ситуацию, в которой вы находитесь.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Вам понравилась статья? Не хотите пропускать новые? Тогда подпишитесь на RSS или получайте новые статьи мгновенно на электронную почту

Несмотря на то, что Excel способен рассчитать ряд описательной и логической статистики для вас, часто лучше показывать визуальное представление данных при представлении информации группе.

Используя встроенную в Excel функцию линии тренда, вы можете добавить линию тренда линейной регрессии к любому графику рассеяния Excel.

Предположим, у вас есть два столбца данных в Excel, и вы хотите вставить точечную диаграмму, чтобы проверить взаимосвязь между этими двумя переменными.

Выберите данные в Excel

Начните с выбора данных в двух столбцах. Затем нажмите на Вставить вкладка на лента и найдите Графики раздел. Нажмите на кнопку с надписью рассеивать а затем выберите кнопку из меню под названием Разброс только с маркерами,

Разброс только с маркерами

В более новых версиях Excel точечные диаграммы будут отображаться в виде маленькой кнопки с графиком и точками, как показано ниже. Кроме того, вы выберете просто рассеивать из выпадающего списка.

Теперь у вас должен быть точечный график с вашими данными, представленными на графике.

Добавить линию тренда в Excel

Теперь, когда у вас есть график рассеяния на листе Excel, вы можете добавить свою линию тренда. Начните, нажав один раз на любую точку данных на графике рассеяния. Это может быть сложно, потому что есть много элементов диаграммы, которые вы можете щелкнуть и отредактировать.

Вы будете знать, что выбрали точку данных, когда выбраны все точки данных. Выбрав точки данных, щелкните правой кнопкой мыши любую точку данных и выберите Добавить линию тренда из меню.

Добавить линию тренда в Excel

Теперь вы должны смотреть на Формат Trendline окно. Это окно содержит много опций для добавления линии тренда в график рассеяния Excel.

Обратите внимание, что вы можете добавить экспоненциальный, линейный, логарифмический, многочлен, Сила, или Скользящая средняя линия тренда / регрессии.

Пока оставьте значение по умолчанию линейный опция выбрана. Нажмите на близко Кнопка и ваш график теперь должны отображать линию тренда линейной регрессии.

Линейная регрессия Trendline на диаграмме Excel

Как и во всех вещах Microsoft Office, вы можете отформатировать свою линию тренда так, чтобы она выглядела именно так, как вы хотите. В следующем разделе мы обсудим некоторые наиболее популярные изменения, которые вы можете внести в свою линию тренда, чтобы она выделялась.

Форматирование Excel Trendline

Чтобы отформатировать вновь созданную линию тренда, начните с щелчка правой кнопкой мыши по линии и выбора Формат Trendline из меню. Excel снова откроет Формат Trendline панель.

Формат Trendline в Excel

Один из наиболее популярных вариантов, которые люди используют при добавлении линии тренда в Excel, заключается в отображении как уравнения линии, так и значения R-квадрата прямо на графике. Вы можете найти и выбрать эти опции внизу окна. Пока выберите оба эти варианта.

Допустим, мы хотим, чтобы наша линия тренда отображалась более четко на графике. В конце концов, линия тренда по умолчанию имеет ширину всего в один пиксель и может иногда исчезать среди цветов и других элементов на графике. На левой стороне Формат Trendline нажмите на Fill & Line значок.

В этом окне измените ширина значение от 0,75 до примерно 3 и измените Тип тире к Квадратная точка вариант (третий в выпадающем меню). Просто чтобы продемонстрировать, что опция существует, измените Тип конца вариант со стрелкой.

Когда вы закончите, нажмите Икс кнопка на Формат Trendline панель и обратите внимание на изменения вашего точечного графика. Обратите внимание, что уравнение линии и значения R-квадрата теперь отображаются на графике и что линия тренда является более заметным элементом диаграммы.

Финальная линия тренда в Excel

Как и многие функции в Excel, у вас есть практически безграничные опции, доступные вам при отображении линии тренда на диаграмме рассеяния.

Вы можете изменить цвет и толщину линии и даже добавить к ней 3D-элементы, такие как эффект затенения (нажмите на Последствия значок).

То, что вы выберете, зависит от того, насколько заметно вы хотите, чтобы ваша линия тренда выделялась на вашем графике. Поэкспериментируйте с опциями, и вы можете легко создать профессионально выглядящую линию тренда в Excel. Наслаждайтесь!

В учебном пособии показано, как определить, выделить и пометить конкретную точку данных на точечной диаграмме, а также как определить ее положение на осях x и y.

На прошлой неделе мы рассмотрели, как сделать точечную диаграмму в Excel. Сегодня мы будем работать с отдельными точками данных. В ситуациях, когда на точечной диаграмме много точек, определить конкретную из них может быть настоящей проблемой. Профессиональные аналитики данных часто используют для этого сторонние надстройки, но есть быстрый и простой способ определить положение любой точки данных с помощью Excel. В нем есть несколько частей:

Исходные данные

Предположим, у вас есть два столбца связанных числовых данных, скажем, ежемесячные расходы на рекламу и продажи, и вы уже создали точечный график, показывающий корреляцию между этими данными:
Точечная диаграмма в Excel

Теперь вы хотите иметь возможность быстро найти точку данных за определенный месяц. Если бы у нас было меньше точек, мы могли бы просто пометить каждую точку по имени. Но на нашем точечном графике довольно много точек и метки только загромождают его. Итак, нам нужно найти способ найти, выделить и, при необходимости, пометить только конкретную точку данных.

Как вы знаете, на точечной диаграмме коррелированные переменные объединяются в одну точку данных. Это означает, что нам нужно получить x (Реклама) и у (Продано товаров) значения для интересующей точки данных. И вот как вы можете их извлечь:

  1. Введите текстовую метку точки в отдельную ячейку. В нашем случае пусть это будет месяц май в ячейке E2. Важно, чтобы вы вводили метку точно так, как она отображается в исходной таблице.
  2. В F2 вставьте следующую формулу ВПР, чтобы получить количество проданных товаров за целевой месяц:

    =ВПР($E$2,$A$2:$C$13,2,ЛОЖЬ)

  3. В G2 подсчитайте стоимость рекламы за целевой месяц, используя следующую формулу:

    =ВПР($E$2,$A$2:$C$13,3,ЛОЖЬ)

    На этом этапе ваши данные должны выглядеть примерно так:
    Извлеките значения x и y для интересующей точки данных.

Добавьте новый ряд данных для точки данных

Когда исходные данные готовы, давайте создадим корректировщик точек данных. Для этого нам нужно будет добавить новый ряд данных в нашу точечную диаграмму Excel:

  1. Щелкните правой кнопкой мыши любую ось на диаграмме и выберите «Выбрать данные…».
    Точечная диаграмма Excel: выберите данные
  2. в Выберите источник данных диалоговое окно, нажмите кнопку «Добавить».
    Диалоговое окно «Выбор источника данных»: Добавить
  3. в Редактировать серию окно, выполните следующие действия:
    • Введите осмысленное имя в поле Название серии коробка, например Целевой месяц.
    • Как Значение серии X, выберите независимую переменную для вашей точки данных. В данном примере это F2 (Реклама).
    • Как Значение серии Yвыберите зависимый. В нашем случае это G2 (Проданные товары).
  4. Когда закончите, нажмите ХОРОШО.

Добавление нового ряда данных в точечный график.

В результате среди существующих точек данных появится точка данных другого цвета (в нашем случае оранжевого), и это та точка, которую вы ищете:
Целевая точка данных выделяется другим цветом.

Конечно, поскольку ряды диаграмм обновляются автоматически, выделенная точка изменится, как только вы введете другое имя в поле. Целевой месяц ячейка (Е2).

Настройте целевую точку данных

Существует множество настроек, которые вы можете сделать для выделенной точки данных. Я поделюсь лишь парой моих любимых советов, а вы сами поэкспериментируете с другими вариантами форматирования.

Изменение внешнего вида точки данных

Для начала поэкспериментируем с цветами. Выберите эту выделенную точку данных, щелкните ее правой кнопкой мыши и выберите «Формат ряда данных…» в контекстном меню. При этом убедитесь, что выбрана только одна точка данных:
Точечная диаграмма: форматирование ряда данных

О формате Серия данных панель, перейти к Заполнение и линия > Маркер и выберите любой цвет для маркера Наполнять а также Граница. Например:
Изменение цвета найденной точки данных

В некоторых ситуациях использование другого цвета для целевой точки данных может оказаться неуместным, поэтому вы можете закрасить ее тем же цветом, что и остальные точки, а затем выделить ее, применив некоторые другие параметры производителя. Например, вот эти:
Обведите целевую точку данных на диаграмме рассеивания.

Добавьте метку точки данных

Чтобы ваши пользователи знали, какая именно точка данных выделена на вашей точечной диаграмме, вы можете добавить к ней метку. Вот как:

  1. Нажмите на выделенную точку данных, чтобы выбрать ее.
  2. Нажмите на Элементы диаграммы кнопка.
  3. Выберите поле Метки данных и выберите, где разместить метку.
    Добавление метки точки данных
  4. По умолчанию Excel показывает одно числовое значение для метки, в нашем случае значение y. Чтобы отобразить значения x и y, щелкните метку правой кнопкой мыши, щелкните Форматировать метки данных…выберите Х значение а также значение Y ящики и установите Разделитель на ваш выбор:
    Отображение значений x и y на этикетке.

Пометьте точку данных по имени

В дополнение к значениям x и y или вместо них на этикетке можно указать название месяца. Для этого установите флажок «Значение из ячейки» на Форматировать метки данных нажмите на Выберите диапазон… и выберите соответствующую ячейку на листе, в нашем случае E2:
Пометьте точку данных по имени.

Если вы хотите, чтобы на этикетке отображалось только название месяца, снимите флажок Х значение а также Значение Y коробки.

В результате вы получите следующую диаграмму рассеяния с выделенной точкой данных и пометкой по имени:
Целевая точка данных выделяется и помечается именем.

Определите положение точки данных по осям x и y

Для лучшей читаемости вы можете отметить положение важной для вас точки данных на осях x и y. Вот что вам нужно сделать:

  1. Выберите целевую точку данных на диаграмме.
  2. Нажмите на Элементы диаграммы кнопка > Планки ошибок > Процент.
    Добавьте планки погрешностей на точечную диаграмму.
  3. Щелкните правой кнопкой мыши на горизонтальной полосе ошибок и выберите Форматирование полос ошибок… из всплывающего меню.
    Форматирование полос ошибок…
  4. На Панель «Панель ошибок форматирования»иди в Параметры панели ошибок вкладку и изменить Направление в Минус и Процент до 100:
    Форматирование горизонтальной полосы ошибок.
  5. Нажмите на вертикальную полосу ошибок и выполните ту же настройку.

    В результате горизонтальная и вертикальная линии будут простираться от выделенной точки до осей y и x соответственно:
    Горизонтальные и вертикальные линии определяют положение целевой точки данных по осям x и y.

  6. Наконец, вы можете изменить цвет и стиль полос погрешностей, чтобы они лучше соответствовали цветам вашей диаграммы. Для этого переключитесь на Заполнение и линия вкладка Планки ошибок формата панель и выберите нужный Цвет а также Тип тире для текущей выбранной полосы ошибок (вертикальной или горизонтальной). Затем сделайте то же самое для другой полосы ошибок:
    Изменение цвета и стиля полос ошибок

И вот окончательная версия нашего графика рассеивания с выделенной целевой точкой данных, помеченной и расположенной на осях:
Точечная диаграмма Excel с выделенной целевой точкой данных, помеченной и расположенной на осях.

Самое лучшее в этом то, что вы должны выполнять эти настройки только один раз. Из-за динамического характера диаграмм Excel выделенная точка изменится автоматически, как только вы введете другое значение в целевую ячейку (E2 в нашем примере):
Выделенная точка на точечной диаграмме изменится автоматически.

Показать положение средней или контрольной точки

Тот же метод можно использовать для выделения средней, эталонной, наименьшей (минимум) или наивысшей (максимум) точки на диаграмме рассеивания.

Например, чтобы выделить среднюю точку, вы вычисляете среднее значение значений x и y с помощью функции СРЗНАЧ, а затем добавляете эти значения в качестве нового ряда данных точно так же, как мы это делали для целевого месяца. В результате у вас будет точечный график с помеченной и выделенной средней точкой:
Точечная диаграмма с помеченной и выделенной средней точкой

Вот как вы можете определить и выделить определенную точку данных на диаграмме рассеяния. Чтобы поближе ознакомиться с нашими примерами, вы можете скачать наш образец рабочей тетради ниже. Я благодарю вас за чтение и надеюсь увидеть вас в нашем блоге на следующей неделе.

Практическая рабочая тетрадь

Точечная диаграмма Excel — примеры (файл .xlsx)

Вас также могут заинтересовать

Когда вам нужно визуализировать взаимосвязь между двумя наборами количественных данных, Microsoft Excel позволяет создать диаграмму рассеяния XY.

Для регрессионного анализа графики точечной диаграммы являются наиболее важным инструментом визуализации данных. Однако вам может быть интересно, как построить диаграмму рассеяния в Excel. Продолжайте читать эту основанную на данных статью, чтобы узнать, как это сделать.

В Microsoft Excel вы можете запутаться, является ли график XY диаграммой рассеяния или линейной диаграммой. Оба аналогичны, за исключением представления данных по горизонтальной оси (X).

Точечная диаграмма состоит из двух осей значений для визуализации количественных данных. Горизонтальная ось (X) представляет один набор числовых данных, а вертикальная ось (Y) указывает другой набор данных.

Но линейный график Excel визуализирует все данные категории по горизонтальной оси (X) и числовые значения по вертикальной оси (Y).

В Excel вы можете создать диаграмму рассеяния для визуализации и сравнения числовых значений, полученных в результате научного и статистического анализа. В следующих сценариях вместо линейного графика следует использовать точечную диаграмму:

  1. Чтобы проанализировать, есть ли корреляция между двумя наборами количественно измеримых значений. Внешний вид диаграммы X и Y будет очень похож на диагональное расположение.
  2. Чтобы изучить положительные или отрицательные тенденции в переменных.
  3. Чтобы увеличить горизонтальную ось (X).
  4. Для визуализации выбросов, кластеров, нелинейных трендов и линейных трендов в большом наборе данных.
  5. Для сравнения большого количества независимых от времени точек данных.

Как сделать точечную диаграмму в Excel

Вот шаги для создания диаграммы рассеяния с использованием шаблона графика XY в Microsoft Excel. Вы можете использовать следующие наборы данных в качестве примера для создания диаграммы рассеяния.

1. Для начала отформатируйте наборы данных так, чтобы независимые переменные помещались в левый столбец, а зависимые переменные – в правый столбец. В приведенных выше наборах данных рекламные бюджеты являются независимыми переменными, а проданные товары – зависимыми переменными.

2. Вам нужно выбрать в Microsoft Excel два столбца с числовыми данными. Не забудьте также включить заголовки столбцов. В данном случае это диапазон B1: C13 .

3. Теперь щелкните вкладку « Вставка » на ленте и выберите нужный шаблон точечной диаграммы в разделе « Графики ». В этом уроке это первая миниатюра, которая представляет собой классическую диаграмму рассеяния.

4. Классическая точечная диаграмма XY-графика появится в рабочем листе Microsoft Excel. Это наиболее простая форма диаграммы рассеяния. Вы также можете настроить четкую и профессиональную визуализацию корреляции.

Разная оптимизация для визуализации точечных диаграмм

Excel позволяет настраивать диаграмму рассеяния несколькими способами. Вот некоторые из возможных модификаций, которые вы можете внести:

Типы точечных диаграмм

Диаграмма рассеяния XY является наиболее распространенным типом графика рассеяния. Другие включают:

  1. Скаттер с плавными линиями и маркерами.
  2. Скаттер с плавными линиями.
  3. Скаттер с прямыми линиями и маркерами.
  4. Скаттер с прямыми линиями.
  5. Пузырьковый разброс XY.
  6. 3-D пузырьковый XY-разброс.

Настройка точечной диаграммы XY Graph

Создавая диаграмму рассеяния в Microsoft Excel, вы можете настроить практически каждый ее элемент. Вы можете изменять такие разделы, как заголовки осей, заголовки диаграмм, цвета диаграмм, легенды и даже скрывать линии сетки.

Если вы хотите уменьшить область построения, выполните следующие действия:

  1. Дважды щелкните горизонтальную (X) или вертикальную (Y) ось, чтобы открыть « Ось формата» .
  2. В меню « Параметры оси» установите минимальные и максимальные границы в соответствии с наборами данных.
  3. График точечной диаграммы изменится соответственно.

Если вы хотите удалить линии сетки, выполните следующие действия:

  1. Дважды щелкните любую из горизонтальных линий сетки в области построения графика XY.
  2. В меню « Формат основных линий сетки» на боковой панели выберите « Нет линии» .
  3. Теперь щелкните любую из оставшихся вертикальных линий сетки и выберите Нет линии .
  4. Линии сетки исчезнут с точечной диаграммы.

Microsoft Excel также предлагает профессиональные шаблоны точечной диаграммы. Вот как вы можете это проверить:

  1. Дважды щелкните пустую область диаграммы.
  2. На ленте найдите « Быстрый макет» в разделе « Макеты диаграмм ».
  3. Нажмите « Быстрый макет» , и вы увидите 11 предустановленных макетов для создания точечной диаграммы.
  4. Наведите указатель на каждую из них, чтобы узнать о функциях, и выберите ту, которая подходит для ваших наборов данных.

Добавьте профессиональный вид своему точечному графику, выполнив следующие действия:

  1. Щелкните любое пустое место диаграммы, чтобы открыть Инструменты диаграммы на ленте .
  2. На вкладке « Дизайн » вы увидите 12 стилей для диаграммы X и Y.
  3. Выберите любой, чтобы мгновенно превратить классический график точечной диаграммы в стильный.

Добавление меток к точкам данных Excel на точечной диаграмме

Вы можете пометить точки данных на диаграмме X и Y в Microsoft Excel, выполнив следующие действия:

  1. Щелкните любое пустое место на диаграмме, а затем выберите элементы диаграммы (выглядит как значок плюса).
  2. Затем выберите метки данных и щелкните черную стрелку, чтобы открыть дополнительные параметры .
  3. Теперь нажмите « Дополнительные параметры», чтобы открыть « Параметры метки» .
  4. Щелкните Выбрать диапазон, чтобы определить более короткий диапазон из наборов данных.
  5. Теперь для точек будут отображаться метки из столбца A2: A6 .
  6. Для четкой визуализации метки при необходимости перетащите метки.

Добавьте линию тренда и уравнение в точечный график

Вы можете добавить в точечную диаграмму линию наилучшего соответствия или линию тренда, чтобы визуализировать взаимосвязь между переменными.

  1. Чтобы добавить линию тренда , щелкните любое пустое место на диаграмме разброса.
  2. На ленте появится раздел « Макеты диаграмм» .
  3. Теперь нажмите « Добавить элемент диаграммы», чтобы открыть раскрывающееся меню.
  4. В этом меню нажмите « Линия тренда», а затем выберите стиль линии тренда, соответствующий наборам данных.

Чтобы визуализировать математическую связь между переменными данных, активируйте отображение уравнения на графике точечной диаграммы.

  1. Дважды щелкните линию тренда .
  2. Откроется боковая панель Format Trendline .
  3. На этой боковой панели нажмите Параметры линии тренда .
  4. Теперь установите флажок Отображать уравнение на диаграмме .

Диаграмма рассеяния и переменная корреляция

Диаграмма разброса диаграммы X и Y может визуализировать три типа корреляции между переменными в наборах данных для значимого представления данных. Эти корреляции следующие:

  • Отрицательная корреляция: при отрицательной корреляции значение одной переменной увеличивается, а значение другой уменьшается.
  • Положительная корреляция: Ярким примером положительной корреляции является увеличение значений переменных по вертикальной (Y) оси, увеличение и для переменных по горизонтальной (X) оси.
  • Нет корреляции: корреляции не будет, если точки разбросаны по всей области диаграммы разброса.

Произведите впечатление на аудиторию, создав точечную диаграмму в Excel

Microsoft Excel – это надежное приложение, которое позволяет создавать диаграмму рассеяния следующего поколения. Узнав, как создать диаграмму рассеяния в Excel, вы также можете создавать в программе интеллектуальные диаграммы, которые обновляются автоматически.

Понравилась статья? Поделить с друзьями:
  • График распределения по значению excel
  • График распределение вероятностей excel
  • График разрыв на оси excel
  • График разработки проектной документации пример excel
  • График рабочих часов в excel