Дискриминантный анализ в excel пример

This tutorial will help you set up and interpret a Discriminant Analysis (DA) in Excel using the XLSTAT software.

Dataset for running a Discriminant Analysis

The data are from [Fisher M. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 7, 179 -188] and correspond to 150 Iris flowers, described by four variables (sepal length, sepal width, petal length, petal width) and their species. Three different species have been included in this study: setosa, versicolor and virginica.

Goal of this Discriminant Analysis

Our goal is to test if the four variables allow to discriminate the species, and to visualize the observations on a 2-dimensional map that shows as well as possible how separated the groups are.

iris_setosa.jpgiris_versicolor.jpgiris_virginica.jpg

Iris setosa, versicolor and virginica.

Setting up a Discriminant Analysis

After opening XLSTAT, select the XLSTAT / Analyzing data / Discriminant analysis command, or click on the corresponding button of the Analyzing data toolbar (see below).

XLSTAT Analyzing data menu, Discriminant Analysis

Once you’ve clicked on the button, the Discriminant analysis dialog box appears. The qualitative dependent variable corresponds here to the «Species» variable. The quantitative Explanatory variables are the four descriptive variables.

We uncheck the Equality of covariance matrices option because, as we will see with the Box’s test, assuming that the covariance matrices of the three species are equal would be wrong.

Many results are optionally displayed by XLSTAT. We can see below which options have been activated for this particular case.

In order to avoid adding too much information on the plots, we have unchecked the Labels option in the Charts tab.

The computations begin once you have clicked on OK. The results will then be displayed.

Interpreting the results of a Discriminant Analysis

The first results displayed are the various matrices used for the computations. The two Box’s tests confirm that we need to reject the hypothesis that the covariance matrices are equal between the groups.

The Wilks’ Lambda test allows to test if the vector of the means for the various groups are equal or not (you can understand it as a multidimensional version of the Fisher’s LSD or the Tukey’s HSD tests). We see that the difference between the means vectors of the groups is significant.

The next table shows the eigenvalues and the corresponding % of variance. We can see that 99% of the variance is represented with the first factor. There are only two factors: the maximum number of factors is equal to k-1, when n>p>k, where n is the number of observations, p the number of explanatory variables, and k the number of groups.

The following chart shows how the initial variables are correlated with the two factors (this chart corresponds to the factor loadings table). We can see that the factor F1 is correlated with Sepal length, Petal length, and Petal width and that F2 is correlated with Sepal width.

The following table displays the discriminant functions. When we assume the equality of the covariance matrices, the discriminant functions are linear. When the equality is not assumed, which is the case in this tutorial, the discriminant functions are quadratic. The rule based on these functions is that we allocate an observation to the group corresponding to the function that gives the greatest value. These functions can be used in predictive mode on new observations to allocate them to a group.

The next table lists for each observation the factor scores (the coordinates of the observations in the new space), the probability to belong to each group, and the squared Mahalanobis distances to the centroid of the group. Each observation is classified into the group for the which the probability of belonging is the greatest. The probabilities are posterior probabilities that take into account the prior probabilities through the Bayes formula. We notice that three observations (5,9,12) have been reclassified. There are several ways in which these results can be interpreted: either the person who made the measures made an error when recording the values, or the corresponding iris flowers have had a very unusual growth or the criteria used by the specialist to determine the species was not precise enough, or some information necessary to discrimine the flowers is not available here.

da7.gif

The following chart represents the observations on the factor axes. It allows to confirm that the species are very well discriminated on the factor axes extracted from the original explanatory variables.

The confusion matrix summarizes the reclassification of the observations, and allows to quickly see the % of well classified observations, which is the ratio of the number of observations that have been well classified over the total number of observations. It is here equal to 98%.

da9.gif

As the corresponding option has been activated in the «Outputs» tab of the dialog box, the predictions for the cross-validation are computed. Cross-validation allows to see what would be the prediction for a given observation if it is left out of the estimation sample. We can see here that only one more observation (Obs8) is miss-classified.

da10.gif

The confusion matrix of the cross-validation is displayed below.

da11.gif

Was this article useful?

  • Yes
  • No

Дискриминантный анализ
Дискриминантный анализ – это метод статистического анализа данных для решения задач распознавания образов, который используется для принятия решения о том, какие переменные разделяют (т.е. «дискриминируют») некоторые наборы данных (кластеры).
Исходными данными для дискриминантного анализа является множество объектов, разделенных на группы так, что каждый объект может быть отнесен только к одной группе. Для каждого из объектов имеются данные по ряду количественных переменных. Такие переменные называются дискриминантными переменными или предикторами.
Задачами дискриминантного анализа является определение:
• решающих правил, позволяющих по значениям дискриминантных переменных (предикторов) отнести каждый объект к одной из известных групп;
• «веса» каждой дискриминантной переменной для разделения объектов на группы.
Дискриминантный анализ применяется, например, в следующих областях деятельности:
• Распознавание образов. В компьютеризированной образов каждый образ представлен большим числом значений пикселов. Линейный дискриминантный анализ применяется здесь главным образом для сокращения числа признаков к более управляемому числу перед попыткой классификации. Каждая из новых размерностей является линейной комбинацией значений пикселов, образуя шаблон.
• Маркетинг (управление продуктом). В маркетинге дискриминантный анализ часто используется для определения факторов, которые отличают различные типы пользователей и/или продуктов на основе опросов или других форм сбора данных.
• Позиционирование относится к инструменту для продвижения бренда. Оно устанавливает позицию, которую бренд занимает в сознании покупателей, и признаки, которые отличают бренд от продуктов конкурентов (конкурентное преимущество). Чтобы позиционировать товары или бренды, компании могут подчеркнуть отличительные черты своего или попытаться создать подходящий имидж через комплекс маркетинга.
• Медицинские исследования. Основным приложением дискриминантного анализа в медицине является оценка тяжести состояния пациента и прогноз течения болезни. Например, в течение ретроспективного анализа пациенты делятся на группы согласно тяжести болезни — лёгкая, средняя и тяжёлая формы. Затем изучаются результаты клинического и лабораторного анализов, чтобы обнаружить переменные, которые достаточно отличаются в изучаемых группах. На основе этих переменных строятся дискриминантные функции, которые помогают объективно классифицировать течение болезни у пациентов в будущем, будет ли она протекать в лёгкой, средней или тяжёлой форме.
• Геодезия. Этот метод можно использовать для разделения зон гидротермальных изменений. Например, когда доступны различные данные из различных зон, дискриминантный анализ может найти структуры в данных и эффективно их классифицировать.
ПРИМЕР:
На основании данных по трем показателям качества выборка была разделена на два кластера (X, Y). Требуется определить, можно ли исследуемое изделие z отнести с кластеру Х?
x1
x2
x3
X
224,228
17,115
27,981
151,827
14,904
21,481
147,313
13,627
28,669
152,253
10,545
10,199
Y
46,757
4,428
11,124
29,033
5,51
6,091
52,134
4,214
11,842
37,05
5,527
11,873
63,979
4,211
12,86
z
55,451
9,592
12,84
Решение:
1) Находим выборочные средние по столбцам:
Формируем из них векторы средних значений:
2) Составляем вспомогательные матрицы:
Вычисляем ковариационные матрицы (ковариация – это мера зависимости двух случайных величин, при нормировании которой получается коэффициент корреляции Пирсона). Буква «Т» в формуле обозначает транспонированную матрицу (в Excel используется функция ТРАНСП и комбинация клавиш Ctrl+Shift+Enter для заполнения всей матрицы):
=
=
Аналогично вычисляем ковариационную матрицу :
3) Вычисляем несмещённую оценку суммарной ковариационной матрицы:
Вычисляем обратную матрицу к ней (с помощью функции МОБР и сочетания клавиш Ctrl+Shift+Enter):
4) Вычисляем вектор разности средних значений:
Находим вектор оценок коэффициентов дискриминантной функции:
Вычисляем оценки дискриминантной функции исходных матриц:
Находим средние значения оценок:
5) Определяем константу дискриминации:
Определяем показатель дискриминации для исследуемого изделия z:
Сравниваем эти критерии:
Вывод: Исследуемое изделие z нельзя отнести к кластеру Х (значит, оно автоматически отнесется к кластеру Y).
ЗАДАНИЕ:
На основании данных по трем показателям качества выборка была разделена на два кластера (X, Y). Требуется определить, можно ли исследуемое изделие z отнести с кластеру Х?
x1
x2
x3
X
25
4
25
28
4
26
31
5
21
27
3
25
29
4
22
28
5
26
30
4
23
Y
17
4
19
18
5
20
19
6
23
16
4
20
18
6
18
19
5
21
z
24
5
20

Слайд 1Практическое занятие №3
«Кластерный анализ»
по дисциплине «Многомерный статистический анализ в социологических

исследованиях»

Практическое занятие №3 «Кластерный анализ»по дисциплине «Многомерный статистический анализ в социологических исследованиях»


Слайд 2План занятия
1. Кластерный анализ.
2. Построение кластеров в программе Excel.

План занятия1. Кластерный анализ. 2. Построение кластеров в программе Excel.


Слайд 3Методы многомерного анализа (multivariate analysis methods)
МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate

statistical analysis] — раздел математической статистики, объединяющий методы изучения статистических

данных, которые являются значениями многомерных качественных или количественных признаков

Цихончик Н.В., 2016

Методы многомерного анализа (multivariate analysis methods)МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ [multidimensional, multivariate statistical analysis] — раздел математической статистики, объединяющий


Слайд 4Классификация многомерных методов
По назначению:
Методы предсказания (экстраполяции): множественный регрессионный и дискриминантный

анализ
Методы классификации: варианты кластерного анализа (без обучения) и дискриминантный анализ
Структурные

методы: факторный анализ и многомерное шкалирование

Цихончик Н.В., 2016

Классификация многомерных методовПо назначению:Методы предсказания (экстраполяции): множественный регрессионный и дискриминантный анализМетоды классификации: варианты кластерного анализа (без обучения)


Слайд 5Кластерный анализ
Цихончик Н.В., 2016
Кластерный анализ объединяет кластеры и переменные (объекты),

похожие друг на друга.
Он позволяет разбить выборку на несколько

групп по исследуемому признаку, проанализировать группы (как группируются переменные), группировку объектов (как группируются объекты).

Кластерный анализЦихончик Н.В., 2016Кластерный анализ объединяет кластеры и переменные (объекты), похожие друг на друга. Он позволяет разбить


Слайд 6Кластерный анализ
Кластерный анализ предназначен для разбиения совокупности объектов на однородные

группы (кластеры или классы). По сути это задача многомерной классификации

данных

Цихончик Н.В., 2016

Кластерный анализКластерный анализ предназначен для разбиения совокупности объектов на однородные группы (кластеры или классы). По сути это


Слайд 7По сути, кластерный анализ – это совокупность инструментов для классификации

многомерных объектов. Метод подразумевает определение расстояния между переменными (дельты) и

последующее выделение групп наблюдений (кластеров).
Техника кластеризации применяется в самых разнообразных областях. Главное задача – разбить многомерный ряд исследуемых значений (объектов, переменных, признаков) на однородные группы, кластеры. То есть данные классифицируются и структурируются.
Вопрос, который задает исследователь при использовании кластерного анализа, – как организовать многомерную выборку в наглядные структуры.
Примеры использования кластерного анализа:
В биологии – для определения видов животных на Земле.
В медицине – для классификации заболеваний по группам симптомов и способам терапии.
В психологии – для определения типов поведения личности в определенных ситуациях.
В экономическом анализе – при изучении и прогнозировании экономической депрессии, исследовании конъюнктуры.
В разнообразных маркетинговых исследованиях.
Когда нужно преобразовать «горы» информации в пригодные для дальнейшего изучения группы, используют кластерный анализ.

По сути, кластерный анализ – это совокупность инструментов для классификации многомерных объектов. Метод подразумевает определение расстояния между


Слайд 8Преимущества метода:
позволяет разбивать многомерный ряд сразу по целому набору параметров;
можно

рассматривать данные практически любой природы (нет ограничений на вид исследуемых

объектов);
можно обрабатывать значительные объемы информации, резко сжимать их, делать компактными и наглядными;
может применяться циклически (проводится до тех пор, пока не будет достигнут нужный результат; а после каждого цикла возможно значительное изменение направленности дальнейшего исследования).
Кластерный анализ имеет и свои недостатки:
состав и количество кластеров зависит от заданного критерия разбиения;
при преобразовании исходного набора данных в компактные группы исходная информация может искажаться, отдельные объекты могут терять свою индивидуальность;
часто игнорируется отсутствие в анализируемой совокупности некоторых значений кластеров.

Преимущества метода:позволяет разбивать многомерный ряд сразу по целому набору параметров;можно рассматривать данные практически любой природы (нет ограничений


Слайд 9Данные для кластерного анализа
Кластерный анализ можно применять к интервальным данным,

частотам, бинарными данным. Важно, чтобы переменные изменялись в
сравнимых шкалах
Чтобы устранить

неоднородность измерения
исходных данных, все их значения предварительно нормируются, т.е. выражаются через отношение этих значений к некоторой величине,
отражающей определенные свойства данного показателя

Цихончик Н.В., 2016

Данные для кластерного анализаКластерный анализ можно применять к интервальным данным, частотам, бинарными данным. Важно, чтобы переменные изменялись


Слайд 10Кластер
Кластер – это совокупность однородных элементов, идентичных объектов, образующих группу

единиц
Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер

кластера.
Центр кластера — это среднее геометрическое место точек в пространстве переменных.
Радиус кластера — максимальное расстояние точек от центра кластера.

Цихончик Н.В., 2016

КластерКластер – это совокупность однородных элементов, идентичных объектов, образующих группу единицКластер имеет следующие математические характеристики: центр, радиус,


Слайд 11Методы кластерного анализа
Методы кластерного анализа можно разделить на две

группы:
иерархические;
неиерархические.
В качестве основных методов анализа пакет STATISTICA предлагает

Joining (tree clustering) – группу иерархических методов (7 видов), которые используются в том случае, если число кластеров заранее неизвестно, и K-Means Clustering (метод К-средних), в котором пользователь заранее определяет количество кластеров.

Цихончик Н.В., 2016

Методы кластерного анализа Методы кластерного анализа можно разделить на две группы: иерархические;неиерархические. В качестве основных методов анализа


Слайд 12Методы кластерного анализа: иерархические
Суть иерархической кластеризации состоит в последовательном

объединении меньших кластеров в большие или разделении больших кластеров на

меньшие
используются при небольших объемах наборов данных
Преимуществом является их наглядность
связаны с построением дендрограмм

Цихончик Н.В., 2016

Методы кластерного анализа: иерархические Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении


Слайд 13Дендрограмма
Дендрограмма (dendrogram) — древовидная диаграмма, содержащая n уровней, каждый из

которых соответствует одному из шагов процесса последовательного укрупнения кластеров.
Цихончик

Н.В., 2016

ДендрограммаДендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых соответствует одному из шагов процесса последовательного


Слайд 14Определение количества кластеров
способ сводится к определению скачкообразного увеличения некоторого

коэффициента, который характеризует переход от сильно связанного к слабо связанному

состоянию объектов

Цихончик Н.В., 2016

Определение количества кластеров способ сводится к определению скачкообразного увеличения некоторого коэффициента, который характеризует переход от сильно связанного


Слайд 15Методы кластерного анализа: неиерархические
основанные на разделении, которые представляют собой

итеративные методы дробления исходной совокупности
В процессе деления новые кластеры формируются

до тех пор, пока не будет выполнено правило остановки

Цихончик Н.В., 2016

Методы кластерного анализа: неиерархические основанные на разделении, которые представляют собой итеративные методы дробления исходной совокупностиВ процессе деления


Слайд 16Практическая часть — построение кластеров в программе Excel

Практическая часть - построение кластеров в программе Excel


Слайд 17С помощью кластерного анализа можно проводить выборку по признаку, который

исследуется. Его основная задача – разбиение многомерного массива на однородные

группы.
В качестве критерия группировки применяется парный коэффициент корреляции или эвклидово расстояние между объектами по заданному параметру. Наиболее близкие друг к другу значения группируются вместе.
Кластерный анализ можно применять, используя для этих целей стандартный набор инструментов Эксель.

С помощью кластерного анализа можно проводить выборку по признаку, который исследуется. Его основная задача – разбиение многомерного


Слайд 18Пример использования
Имеем пять объектов, которые характеризуются по двум изучаемым параметрам.

Пример использованияИмеем пять объектов, которые характеризуются по двум изучаемым параметрам.


Слайд 19Шаг 1
Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется

по шаблону:
=КОРЕНЬ((x2-x1)^2+(y2-y1)^2)
Данное значение вычисляем между каждым из пяти объектов. Результаты

расчета помещаем в матрице расстояний.

Шаг 1Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется по шаблону:=КОРЕНЬ((x2-x1)^2+(y2-y1)^2)Данное значение вычисляем между каждым из


Слайд 20Шаг 1
=КОРЕНЬ((D3-C3)^2+(D4-C4)^2)

Шаг 1=КОРЕНЬ((D3-C3)^2+(D4-C4)^2)


Слайд 21Шаг 2
Смотрим, между какими значениями дистанция меньше всего. В нашем

примере — это объекты 1 и 2. Расстояние между ними составляет 13,41641, что

меньше, чем между любыми другими элементами данной совокупности.
Объединяем эти данные в группу и формируем новую матрицу, в которой значения 1,2 выступают отдельным элементом. При составлении матрицы оставляем наименьшие значения из предыдущей таблицы для объединенного элемента.

Шаг 2Смотрим, между какими значениями дистанция меньше всего. В нашем примере — это объекты 1 и 2. Расстояние между ними


Слайд 23Шаг 3
Опять смотрим, между какими элементами расстояние минимально.
На этот

раз – это объект 5 и группа объектов 1,2. Дистанция составляет 15,65248.

Шаг 3Опять смотрим, между какими элементами расстояние минимально. На этот раз – это объект 5 и группа объектов 1,2. Дистанция составляет


Слайд 24Шаг 3
Добавляем указанные элементы в общий кластер. Формируем новую матрицу

по тому же принципу, что и в предыдущий раз. То

есть, ищем самые меньшие значения. 

Шаг 3Добавляем указанные элементы в общий кластер. Формируем новую матрицу по тому же принципу, что и в


Слайд 25Шаг 4
Добавляем указанные элементы в общий кластер. Формируем новую матрицу

по тому же принципу, что и в предыдущий раз. То

есть, ищем самые меньшие значения. 

Шаг 4Добавляем указанные элементы в общий кластер. Формируем новую матрицу по тому же принципу, что и в


Слайд 26Шаг 4
Таким образом, мы видим, что нашу совокупность данных можно

разбить на два кластера. В первом кластере находятся наиболее близкие

между собой элементы – 1,2,4,5. Во втором кластере в нашем случае представлен только один элемент — 3. Он находится сравнительно в отдалении от других объектов. Расстояние между кластерами составляет 38,69936.

Шаг 4Таким образом, мы видим, что нашу совокупность данных можно разбить на два кластера. В первом кластере


Слайд 27Шаг 5
На этом завершается процедура разбиения совокупности на группы.

1 кластер

– респонденты, у которых расходы на питание составляют большую часть

дохода (4 из 5 человек, т.е. 80%)
2 кластер – это респондент, расходы на питание которого составляют меньшую часть бюджета (1 из 5 человек, т.е. 20% выборки).

Шаг 5На этом завершается процедура разбиения совокупности на группы.1 кластер – респонденты, у которых расходы на питание


Слайд 31Задание к следующему занятию
Факторный анализ: понятие и назначение процедуры.
Процедура факторного

анализа.

Задание к следующему занятиюФакторный анализ: понятие и назначение процедуры.Процедура факторного анализа.


Понравилась статья? Поделить с друзьями:
  • Дискриминант в таблице excel
  • Дискриминант в excel если
  • Дискретный статистический ряд в excel
  • Дискретные графики в excel
  • Дискретное распределение случайной величины excel