Cuprins
- 1. Ce este si la ce se foloseste analiza discriminantului? 4
- Definire 4
- Conditii 4
- Clasificare 4
- Relatia analizei discriminantului cu regresia si ANOVA 5
- Modelul de analiza a discriminantului 5
- Statistici asociate cu analiza discriminantului 5
- Presupunerile (conditiile)si datele 6
- 2. Conducerea analizei discriminantului 7
- 3. Prezentarea bazei de date 8
- 4. Exemplul 1 12
- 5. Exemplul 2 Un model cu patru grupe 27
Extras din proiect
1. Ce este si la ce se foloseste analiza discriminantului?
Definire
Analiza discriminantului este o tehnica pentru a analiza care caracteristici diferentiaza membrii unui grup. Analiza discriminantului are doua întrebuintari majore: estimare si întelegere. În scopul estimarii, analiza discriminantului furnizeaza o metoda simpla cu ajutorul careia putem determina în care grup este cel mai probabil ca o observatie sa se încadreze. Decât sa calculati probabilitatea unei distributii normale multivariate puteti doar sa calculati un index(valoarea unei functii) si sa-l comparati cu o valoare cutoff (limita). De exemplu un student promoveaza anul daca combinatia ponderata a mediei, numarului de credite si numarului de restante se situeaza peste o anumita valoare, care este cutoff-ul.
Ponderile din index indica impactul variabilelor: de exemplu numarul de restante poate avea o influenta mai mare decât media examenelor promovate.
Totusi procedura analizei discriminantului poate fi folosita deasemeni pentru:
" identificarea variabilelor ce sunt mai folositoare la diferentierea grupurilor;
" daca un set de variabile are rezultate la fel de bune ca celelalte;
" care grupuri se aseamana cel mai mult
" care cazuri sunt outlieri
Conditii
Analizarea datelor prin folosirea discriminantului se poate efectua numai atunci când:
" criteriul sau variabila dependenta este categoriala
si
" predictorul sau variabilele independente sunt de natura interval
De exemplu variabila dependenta ar putea fi alegerea pentru o bautura racoritoare: Coca-Cola, Fanta sau Sprite, iar variabilele independente ar putea fi: evaluari are caracteristicilor sucului: continut de zahar: scazut, mediu, ridicat, aroma, aciditate, etc.
Clasificare
Analiza discriminantului este clasificata în functie de numarul de categorii pe care le are variabila criteriu: daca are 2 categorii atunci avem analiza discriminantului pe doua grupe, daca are 3 sau mai multe atunci este vorba despre analiza multipla a discriminatului.
Relatia analizei discriminantului cu regresia si ANOVA
ANOVA Regresie Analiza discriminantului
Similaritati
una
una
una
Nr. de variabile dependente
Nr. de variabile independente
multiple
multiple
multiple
Diferente
de interval
de interval
categoriala
Natura variabilei dependente
Natura variabilei dependente
categoriala
de interval
de interval
Modelul de analiza a discriminantului:
Modelul de analiza a discriminantului implica combinatii liniare de urmatoarea forma:
D=b0 +b1X1 + b2X2 + b3X3 +....+ bkXk
D=valoarea discriminantului
b=coeficientii discriminatului sau ponderi
X=predictor sau variabila independenta
Coeficintii sau ponderile sunt astfel estimate încât grupurile sa difere la valoarea functiei discriminantului cât de mult posibil. Acesta se întâmpla când raportul sumei de patrate intergrupe si când raportul sumei de patrate intragrupe are nivelul maxim. Orice alta combinatie liniara a predictorilor va rezulta într-o proportie mai mica.
Statistici asociate cu analiza discriminantului:
Urmatoarele sunt cele mai importante statistici asociate cu analiza discriminantului:
Canonical correlation - Corelatia canonica masoara gradul de asociere dintre valorile discriminantului si grupuri. Este o masura a asocierii dintre functia simpla a discriminantului si setul de variabile binare care definesc încadrarea în grupuri.
Centroid- Centriodul este valoarea(valorile) medii ale scorurilor discriminantului pentru un grup particular. Exista atâtia centroizi câte grupuri sunt, pentru ca exista câte unul pentru fiecare grup. Mediile pentru un grup asupra tuturor functiilor sunt centroizi de grup.
Classification matrix matricea de clasificare mai este denumita confusion sau prediction matrix matrice de estimare contine numarul de cazuri ce sunt corect clasificate si cele gretit clasificate. Cazurile corect clasificate apar pe diagonala, deoarece grupele estimate(predictionate) si cele reale sunt aceleasi. Elementele ce nu se regasesc pe diagonala reprezinta cazuri care au fost incorect clasificate. Suma elementelor de pe diagonala împartita la numarul total de cazuri reprezinta hit ratio- rata încadrarilor corecte.
Preview document
Conținut arhivă zip
- Analiza Discriminanta.doc