Extras din proiect
PROIECT 2: Aplicaţie numerică la una dintre următoarele doua teme: Analiza Cluster (Recunoaştere Nesupervizată a Formelor) sau Analiza Discriminantă (Recunoaştere Supervizată a Formelor);
REZOLVARE: Imaginăm o situaţie având variabile astfel: Marca maşinii (Marca), preţul de achiziţie al maşinii (Pret), capacitatea cilindrică a maşinii (CC), dacă se cumpără având sau nu asigurare Casco (Casco), consumul mediu al maşinii (Consum), gradul de îndatorare al clientului la achiziţionarea maşinii prin leasing (GrdDat).
Observăm că variabilele pe care le folosim sunt măsurate în scale diferite. De aceea trebuie să folosim procedura Analyze Descriptive Statistics Descriptives pentru a standardiza variabilele cu ajutorul procedurii Z (astfel valoarile pentru fiecare variabilă sunt ”re-scalate” pentru a avea media 0 si deviaţia standard de 1).
Selectăm variabilele care vor fi standardizate (preţ, CC, GrdDat) şi bifarea opţiunii Save standardized values as variables va adăuga, în baza de date de lucru, valorile standardizate ale variabilelor (scorurile z). Astfel se va forma o nouă bază de date adăugându-i-se alte şase variabile standardizate de tipul „znume variabilă”. Pentru gruparea cazurilor în funcţie de Cluster Analyze K-means alegem din meniu Analyze Classify K-Means Cluster
Din meniul principal alegem pentru grupare, cele trei variabile standardizate (Zpret: preţ, ZCC: CC şi ZGrdDat: GrdDat), în căsuţa Label Cases by alegem variabila Marca. La Number of Cluster, este specificat numărul de grupuri = 2; iar la Method bifăm Iterate and classify pentru a repeta şi clasifica cazurile. Din submeniul Iterate alegem 10, acesta fiind numărul maxim de repetări ale algoritmului.
Maximum iterations - limitează numărul de repetari în algoritmul K-Means. Repetarea se opreşte după acest număr de repetari chiar dacă criteriul de convergenţă nu este satisfacut. Acest număr poate fi între 1 si 999.
Convergence criterion - se determină atunci când încetează repetarea. Reprezintă o proporţie a distanţei minime între centrii clusterelor iniţiale, deci trebuie să fie cuprins între 0 şi 1. Use running means - permite să se solicite reactualizarea centrelor clusterilor după ce a fost repartizat fiecare caz. Dacă nu se selectează această opţiune, noi centre sunt calculate după ce au fost repartizate toate cazurile. Din submeniul Save selectăm, Cluster membership - crează o variabilă nouă indicând numarul final de clustere pentru fiecare caz. (aceasta ia valori de la 1 până la nr de grupuri nou create). „Distance from cluster center” – bifarea opţiunii determină crearea unei noi variabile indicând distanţa euclidiana dintre fiecare caz si centrul sau de clasificare.
Preview document
Conținut arhivă zip
- K-MEANS.pdf
- K-MEANS.sav
- K-MEANS.spo