Cuprins
- 1. Analiza componentelor principale 2
- 2. Analiza cluster 11
- 2.1 Algoritmul ierarhic 11
- Soluția 1: Metoda Ward 11
- Soluția 2: Metoda complete 12
- Soluția cu 3 clase 13
- Soluția cu 2 clase 13
- 2.2 Alegerea algoritmului de clusterizare 13
- 3. Analiza corespondențelor 16
- 4. Arbori de clasificare 18
- 5. Metode contractuale 22
- 6. Algoritmi genetici 31
- 7. Analiza Conjoint ( experiment ) 33
- 7.1 Se stabilesc caracteristicele și nivelele 33
- 7.2 Se generează toate profilele posibile 33
- 7.3 Se extrage aleator o parte din profile 33
- 7.4 Se transformă chestionarul în R 33
- 7.5 Realizăm matricea ce conține: blocul, întrebarea, alternativele și caracteristicile 34
Extras din proiect
1. Analiza componentelor principale3
În această primă parte a proiectului am aplicat analiza componentelor principale (ACP) pe o matrice de date ale cărei coloane sunt descrise în tabelul de mai jos ( tabel 1.1).
Acești indicatori sunt înregistrați pentru 33 de țări și se refera la 4 categorii de indicatori, indicatorii din prima categorie (I1, I2,I3) aleasa, si anume: resurse umane - se refera la studiile (doctorale absolvite, învățământ terțiar) angajaților respectiv la durata acestora, lucru care determina implicit un impact direct asupra gradului de ocupare al forței de muncă (categoria 2 - I4). Cu alte cuvinte, cu cât angajații prezintă studii de ordin superior, cu atât prezintă și un grad de cunoștințe intelectuale mult mai ridicat (categoria 3 - I5, I6) comparativ cu cei care prezintă studii medii/liceale lucru ce impactează în mod direct vânzările (categoria 4 - I7,I8), în sens pozitiv.
Tabel 1.0. Țările indicatorilor analizați
COD INDICATOR DENUMIRE INDICATOR
I1 Absolventi de doctorat la 1000 locuitori;
I2 Ponderea populatiei cu studii superioare (grupa 25-34ani);
I3 Ponderea populatiei care participa la formare;
I4 Ocuparea forței de muncă în activități intensive ale cunoașterii
I5 Numar de brevete;
I6 Numar de marci inregistrate;
I7 Sectoarele inovatoare ale întreprinderilor cu creștere rapidă a forței de muncă;
I8 Vânzări de inovații noi pe piață;
Tabel 1.1. Indicatorii analizați
Primul pas în analiza componentelor principale este investigarea matricii de corelație. Aceasta permite identificarea redundanțelor informaționale și justificarea necesității utilizării acestui tip de analiza. Cei 8 indicatori definiți în tabelul 1.1 fac parte din cele 3 categorii evidențiate mai sus, conform metodologiei European Innovation Scoreboard (EIS) 2018.
Analiza are ca obiectiv obținerea a trei indicatori agregați care să reprezinte fiecare categorie. Am ilustrat această abordare pentru cei 8 indicatori. Conform metodologiei EIS, aceștia reflectă ponderea angajaților care prezintă studii superioare si modul in care impacteaza ocuparea fortei de munca.
Coeficienții de corelație dintre oricare două variabile sunt prezentați în tabelul 1.2.
Tabel 1.2. Matricea de corelație
Identificăm valori ale coeficienților de corelație care sugerează corelații puternice pozitive: 0.82 ( I5-I3), singura corelație negativă este între indicatorul I5 și I6 ( -0.15). Pentru a decide dacă un coeficient de corelație este diferit de zero din punct de vedere statistic, vom folosi probabilitățile p-value asociate acestora.
Tabel 1.3. Probabilitățile asociate coeficienților de corelație
De exemplu, coeficientul de corelație dintre I1și I6 , care are valoarea 0.14, nu este semnificativ statistic deoarece probabilitate p-value asociată este 0.44. Cu mici excepții, coeficienții de corelație sunt semnificativi, ceea ce demonstrează utilitatea aplicării ACP.
Tabelul valorilor p-value prezintă redundanță, ceea ce ne indică faptul că Analiza Componentelor Principale este relevantă.
O modalitate mult mai sugestivă de a vizualiza informațiile din ultimele 2 tabele este reprezentarea unui grafic care include culori pentru a indica intensitatea și semnul coeficientului de corelație.
Preview document
Conținut arhivă zip
- Data mining in afaceri.docx