Cuprins
- I. Introducere 4
- II. Statistica descriptiva 7
- 1. Media, dispersia si abaterea standard a valorilor studiate 7
- 2. Matricea de corelatie 11
- 3. Matricea de covarianta 13
- III. Analiza componentelor principale 13
- IV. Analiza cluster 23
- 1. Metoda agregarii complete 23
- 2. Metoda Ward 28
- V. Analiza discriminanta 31
- VI. Metoda K-Means 37
- VII. Analiza factoriala 40
- Concluzie 46
- ANEXE 47
- 1. Box plot 47
- 2. Histograme 49
- 3. Component Pattern 52
Extras din proiect
I. Introducere
Cunoasterea stiintifica din orice domeniu de activitate umana presupune, indiferent de natura si specificul obiectivelor concrete urmarite, o complexa si riguroasa analiza cantitativa a fenomenelor si proceselor care fac obiectul cercetarii. Este vizibil pentru oricine, si din ce in ce mai mult, ca in epoca moderna aproape orice individ angrenat intr-o activitate umana se ocupa, intr-un fel sau altul, in mod direct sau indirect, cu date si informatii, cu colectarea, prelucrarea si interpretarea acestora.
Desfasurarea oricarei activitati umane implica o productie continua de date sau informatii, care se acumuleaza in timp si care pot fi folosite pentru cunoasterea structurala si evolutiva a fenomenelor la care se refera aceste informatii, in scopul fundamentarii corecte si eficiente a deciziilor care trebuie luate. Mai mult decat atat, desfasurarea activitatilor umane nici macar nu poate fi conceputa in zilele noastre fara un consum continuu, din ce in ce mai mare, de informatie. Din acest punct de vedere, se poate spune ca informatia a devenit unul dintre factorii de productie importanti si activi, un factor de progres si civilizatie.
Totdeauna, multimile de date contin, intr-un mod amalgamat si invizibil, atat aspecte semnificative, cat si aspect nesemnificative, ale manifestarii fenomenelor. Deoarece cunoasterea stiintifica vizeaza in mod exclusiv aspectele informationale semnificative, apare necesitatea utilizarii unor metode si tehnici specifice analizei datelor, cu ajutorul carora informatia semnificativa sa poate fi detectata, separata de informatia nesemnificativa si exprimata sub o forma clara si interpretabila.
Metodele si tehnicile de analiza a datelor sunt cele mai adecvate instrumente utilizabile pentru identificarea unor structure cauzale, pentru decelarea unor tendinte si configuratii specifice pe multimea datelor analizate si obtinerea unor reprezentari simplificate ale informatiilor de mare complexitate. Utilitatea si eficienta utilizarii metodelor si tehnicilor de analiza a datelor sunt maxime in situatiile in care informatiile supuse studiului sunt in cantitati foarte mari. Din acest punct de vedere, domeniul economic poate fi considerat ca fiind un domeniu privilegiat. In cea mai mare parte a lor, metodele si tehnicile de analiza a datelor au natura multidimensionala, astfel incat, comparativ cu metodele si tehnicile de analiza statistica descriptiva, ele permit si investigarea legaturilor si interdependentelor evidentiate la nivelul multimilor de date.
Materia prima utilizata in orice activitate de analiza a datelor este reprezentata de o colectie sau multime de date sau informatii cantitative, referitoare la starile sau evolutiile unei multimi de fenomene.
Din punct de vedere al analizei datelor, orice multime de informatii supusa studiului este privita ca fiind o reprezentare codificata, intr-o forma mai mult sau mai putin implicita, a unor aspecte informationale referitoare la niveluri si variatii ale unor fenomene, evolutii si tendinte relevante, legaturi si influente semnificative, ierarhii si configuratii structurale specifice.
Datele supuse unui proces de analiza nu evidentiaza, in mod direct si explicit, prin ele insele, informatia utila si semnificativa. De regula, datele contin informatia utila si semnificativa sub o forma mascata, ascunsa, amestecata intr-un mod nediferentiat si fara o logica aparenta, cu informatia nesemnificativa, rezultata din influente accidentale si marginale. In acest sens, se poate spune ca la nivelul datelor primare supuse analizei, informatia semnificativa se gaseste sub o forma diluata si disipata intr-o multime informationala complexa, neordonata si nestructurata dupa vreun criteriu logic existent aprioric.
Rolul analizei datelor este acela de a prelucra si filtra informatiile continute in datele supuse studiului, cu scopul de a capta sau de a extrage esenta informationala continuta in aceste date si de a evidentia aceasta esenta informationala intr-o forma de reprezentare inteligibila, sugestiva, simplificata si sintetizatoare. Atingerea acestui scop presupune realizarea unei succesiuni de transformari efectuate asupra datelor primare si implica utilizarea unor metode si tehnici specifice. Aceste transformari au scopul de a maximiza relevanta si interpretabilitatea datelor si presupun, printre altele, eliminarea informatiilor redundante sau lipsite de semnificatie si generalitate, care au natura accidentala sau marginala. Din acest punct de vedere, procesul de analiza a datelor apare ca fiind un proces specific de transformare informationala, proces care are ca intrari datele primare, iar ca iesiri informatii sintetizatoare.
• x1- Productivitatea resurselor (Resource productivity) –variabila cantitativa continua
• x2- Rate de ocupare a lucratorilor in varsta (Employment rate of older workers%) –variabila cantitativa continua
• x3- Ani de viata sanatoasa-femei (Healthy life years – females) –variabila cantitativa discreta
• x4- Emisiile de gaze cu efect de sera (Greenhouse gas emissions) –variabila cantitativa continua
• x5- Ponderea energiei regenerabile in consumul final brut de energie (Share of renewable energy in gross final energy consumption) –variabila cantitativa continua
• x6- Consumul de energie de transport in raport cu PIB (Energy consumption of transport relative to GDP)-variabila cantitativa continua
• x7- Asistenta oficiala pentru dezvoltare ca procent din venitul national brut (Official development assistance as share of gross national income) –variabila cantitativa continua
• x8- PIB-ul real pe capital, rata de crestere (Real GDP per capital, growth rate)–variabila cantitativa continua
• x9- Persoanele expuse riscului de saracie sau de excluziune sociala % (People at-risk-of-poverty or social exclusion %) –variabila cantitativa discreta
• x10- Rata de sinucidere, pe grupe de varsta - Total (Suicide death rate, by age group – Total) –variabila cantitativa continua
Lucrarea de fata isi propuse ca evalueze relevanta indicatorilor pentru conturarea unei imaginea de ansamblu asupra tarilor surprinse analizei si eliminarea redundantei informationale.
Preview document
Conținut arhivă zip
- Analiza Datelor.docx