Cuprins
- Descrierea datelor
- Statistici descriptive
- Analiza componentelor principale(ACP)
- I. Matricea de corelatie a datelor
- II. Vectori proprii
- III. Valori proprii
- IV. Criterii de alegere a numarului de componente principale
- V. Matricea factor
- V. Reprezentarea obiectelor în funcție de noile componente
- Analiza cluster
- I. Metode de clasificare ierarhice
- I.1. Metoda Ward
- I.1. Metoda celor mai îndepartaţi vecini
- II. Kmeans
- Concluzii
Extras din proiect
Descrierea datelor
Proiectul își propune să analizeze un eșantion de dimensiune n=42, ce reprezintă județele României, datele fiind culese de pe site-ul Institutului Național de Statistică (www.insse.ro). Pentru fiecare județ am colectat date cu privire la 10 indicatori ce descriu diferite aspecte economice din anul 2014,dupa cum urmează:
I1 – Populația stabilă reprezintă populația alcatuită din persoanele care locuiesc în localitatea respectivă, cu domiciliul sau reședinta în localitate la momentul respectiv.
Se calculează pe baza datelor de la ultimul recensământ, corectate cu sporul natural al populației, soldul migrației externe, soldul mișcării migratorii cu schimbarea domiciliului, precum și cu soldul mișcării migratorii cu schimbarea reședinței, fenomene înregistrate între recensământ și momentul dat.
I2 – Densitatea populației - nr pers/ km²- reprezintă numărul de persoane pe unitate de suprafață, măsurându-se în general în persoane pe kilometru pătrat, obținându-se prin împărțirea numărului de locuitori la suprafața în kilometri pătrați.
I3 – Ponderea elevilor înscriși în învățămantul liceal, pe județ, reprezintă raportul dintre numărul persoanelor înscrise în învățământul liceal dintr-un anumit județ și numărul total de persoanelor înscrise în învățământ.
I4 – Ponderea elevilor înscriși în învățămantul profesional, pe județ, reprezintă raportul dintre numărul persoanelor înscrise în invățământul profesional dintr-un anumit județ și numărul total de persoanelor înscrise în învățământ.
I5 - Ponderea elevilor înscriși în învățămantul postliceal, pe județ, reprezintă raportul dintre numărul persoanelor înscrise în învățământul postliceal dintr-un anumit județ și numărul total de persoanelor înscrise în învățământ.
I6 – Numărul de locuințe finanțate din fondurile populației și terminate în decursul anului (număr)
I7 – Rata șomajului reprezintă raportul dintre numărul șomerilor și populația activă civilă, exprimată procentual.
I8 – Câștigul salarial nominal mediu net lunar pe activități ale economiei naționale la nivel de secțiune se obține prin scăderea din câștigul salarial nominal brut a: impozitului, contribuției salariaților pentru asigurările sociale de sănătate, contribuției individuale de asigurări sociale de stat și a contribuției salariaților la bugetul asigurărilor pentru șomaj și se exprimă în Lei RON.
I9 – Resursele de muncă existente la un moment dat în societate exprimă numărul persoanelor capabile de muncă, adică acea parte a populaţiei care posedă ansamblul capacităţilor fizice şi intelectuale care îi permit să desfăşoare o activitate utilă în una din activităţile economiei naţionale.Resursele de muncă includ:
- populaţia cuprinsă în limitele vârstei de muncă (PVM);
- populaţia cuprinsă în limitele vârstei de muncă, dar inaptă de muncă (PVMIM);
- populaţia în afara limitelor vârstei de muncă care lucrează (PAVML).
RM = PVM – PVMIM + PAVML
Acest indicator este exprimat în mii persoane.
I10 – Populația activă civilă (mii persoane)
I11 - Executia bugetelor locale pe elemente de venituri(milioane lei RON)
Statistici descriptive
Pentru fiecare din indicatorii menționați anterior am urmărit să observ distribuiția variabilelor, media, variația, elemente minime și maxime, existența datelor aberante, valori evidențiate în Tabelul 1 și Tabelul 2.
I1 I2 I3 I4 I5
Media 509852.7 275.6905 0.0064476190 0.00009 0.0005738
Abatere std 279414.9 1232.32 0.0036366190 0.00007 0.0004434
Varianta 78072682373 1518612 0.0000132250 0.00000 0.0000002
Minim 222065 28.7 0.0023461604 0.00000 0.0000311
Maxim 1937421 8068.9 0.0242865970 0.00034 0.0024518
Quartila 1 336661.8 64.35 0.0041725000 0.00005 0.0002775
Quartila 2 452263.5 79.65 0.0058250000 0.00008 0.0005050
Quartila 3 604820.5 94.85 0.0080575000 0.00012 0.0007275
Skewness 3.367926351 6.472966 2.9641133973 1.88992 2.1701427
Kurtosis 16.28684218 41.93089 13.5034137963 5.42674 7.1790099
Tabelul 1 – Statistici descriptive pentru I1, I2, I3, I4, I5
I6 I7 I8 I9 I10 I11
Media 996.429 5.828571 1178.17 334.469 210.155 1066.76
Abatere std 842.696 1.95776 163.397 189.731 154.015 1041.53
Varianta 710137 3.832822 26698.7 35998 23720.7 1084784
Minim 175 1.6 987 145.3 84.9 402.3
Maxim 3702 9.8 1838 1308.7 1083.7 7288.6
Quartila 1 456.75 4.675 1067 232.8 142.050 653.825
Quartila 2 697.5 5.700 1138 289.85 180.150 852.3
Quartila 3 1274.75 6.800 1248 412.4 243.075 1157.15
Skewness 1.64599 0.022503 2.04113 3.43019 4.62975 5.42711
Kurtosis 2.33646 -0.00865 5.87088 16.6656 26.0926 32.7598
Tabelul 1 – Statistici descriptive pentru I6, I7, I8, I9, I10, I11
În continuare sunt reprezentate grafic, diagrama boxplot, histograma și variația pentru fiecare indicator în parte
Preview document
Conținut arhivă zip
- Analiza componentelor principale (ACP).docx