Cuprins
- Introducere 3
- 1. Prezentarea datelor 5
- 1. Statistici descriptive 7
- 1.1. Media indicatorilor 8
- 1.2. Varianta indicatorilor 10
- 1.3. Deviația standard pentru indicatori 10
- 1.4. Skewness și kurtosis (simetria și platitudinea) 11
- 1.5. Histograma indicatorilor 12
- 1.6. Densitatea indicatorilor 15
- 1.7. Matricea de corelație 18
- 1.8. Matricea de covarianță 19
- 2. Analiza componentelor principale 21
- 2.1. Matricea vectorilor proprii 22
- 2.2. Standardizarea datelor 24
- 2.3. Criteriul lui Kaizer 26
- 3. Algoritmi de clusterizare 30
- 3.1. Clusterizare ierarhică 34
- 3.2. Algoritmul K-medoids 37
- 3.3. Algoritmul Fuzzy C-Means 42
- 4. Algoritmi de clasificare 44
- 4.1. Clasificatorul Naiv Bayesian 45
- 4.2. Metoda celor mai apropiați k vecini 50
- 4.3. Mașini cu suport vectorial (SVM) 53
- 5. Rețele neuronale 55
Extras din proiect
Introducere
Cunoașterea științifică din orice domeniu de activitate umană presupune, indiferent de natura și specificul obiectivelor concrete urmărite, o complexă și riguroasă analiză cantitativă a fenomenelor și proceselor care fac obiectul cercetării. Este vizibil pentru oricine, și din ce în ce mai mult, că în epoca modernă aproape orice individ angrenat într-o activitate umană se ocupă, într-un fel sau altul, în mod direct sau indirect, cu date și informații, cu colectarea, prelucrarea și interpretarea acestora.
Desfășurarea oricărei activități umane implică o producție continuă de date sau informații, care se acumulează în timp și care pot fi folosite pentru cunoașterea structurală și evolutivă a fenomenelor la care se referă aceste informații, în scopul fundamentării corecte și eficiente a deciziilor care trebuie luate. Mai mult decât atât, desfășurarea activităților umane nici măcar nu poate fi concepută în zilele noastre fără un consum continuu, din ce în ce mai mare, de informație. Din acest punct de vedere, se poate spune că informația a devenit unul dintre factorii de producție importanți și activi, un factor de progres și civilizație.
Totdeauna, mulțimile de date conțin, într-un mod amalgamat și invizibil, atât aspecte semnificative, cât și aspect nesemnificative, ale manifestării fenomenelor. Deoarece cunoașterea științifică vizează în mod exclusiv aspectele informaționale semnificative, apare necesitatea utilizării unor metode și tehnici specifice analizei datelor, cu ajutorul cărora informația semnificativă să poate fi detectată, separată de informația nesemnificativă și exprimată sub o formă clară și interpretabilă.
Metodele și tehnicile de analiză a datelor sunt cele mai adecvate instrumente utilizabile pentru identificarea unor structure cauzale, pentru decelarea unor tendințe și configurații specifice pe mulțimea datelor analizate și obținerea unor reprezentări simplificate ale informațiilor de mare complexitate. Utilitatea și eficientă utilizării metodelor și tehnicilor de analiză a datelor sunt maxime în situațiile în care informațiile supuse studiului sunt în cantități foarte mari. Din acest punct de vedere, domeniul economic poate fi considerat ca fiind un domeniu privilegiat. În cea mai mare parte a lor, metodele și tehnicile de analiză a datelor au natură multidimensională, astfel încât, comparativ cu metodele și tehnicile de analiză statistică descriptivă, ele permit și investigarea legăturilor și interdependențelor evidențiate la nivelul mulțimilor de date.
Materia primă utilizată în orice activitate de analiză a datelor este reprezentată de o colecție sau mulțime de date sau informații cantitative, referitoare la stările sau evoluțiile unei mulțimi de fenomene.
Din punct de vedere al analizei datelor, orice mulțime de informații supusă studiului este privită ca fiind o reprezentare codificată, într-o formă mai mult sau mai puțin implicită, a unor aspecte informaționale referitoare la niveluri și variații ale unor fenomene, evoluții și tendințe relevante, legături și influențe semnificative, ierarhii și configurații structurale specifice.
Datele supuse unui proces de analiză nu evidențiază, în mod direct și explicit, prin ele însele, informația utilă și semnificativă. De regulă, datele conțin informația utilă și semnificativă sub o formă mascată, ascunsă, amestecată într-un mod nediferențiat și fără o logică aparentă, cu informația nesemnificativă, rezultată din influențe accidentale și marginale. În acest sens, se poate spune că la nivelul datelor primare supuse analizei, informația semnificativă se găsește sub o formă diluată și disipată într-o mulțime informațională complexă, neordonată și nestructurată după vreun criteriu logic existent aprioric.
Rolul analizei datelor este acela de a prelucra și filtra informațiile conținute în datele supuse studiului, cu scopul de a capta sau de a extrage esența informațională conținută în aceste date și de a evidenția această esența informațională într-o formă de reprezentare inteligibilă, sugestivă, simplificată și sintetizatoare. Atingerea acestui scop presupune realizarea unei succesiuni de transformări efectuate asupra datelor primare și implică utilizarea unor metode și tehnici specifice. Aceste transformări au scopul de a maximiza relevanța și interpretabilitatea datelor și presupun, printre altele, eliminarea informațiilor redundante sau lipsite de semnificație și generalitate, care au natură accidentală sau marginală. Din acest punct de vedere, procesul de analiză a datelor apare ca fiind un proces specific de transformare informațională, proces care are ca intrări datele primare, iar ca ieșiri informații sintetizatoare.
Lucrarea de față își propune să evalueze relevanța indicatorilor pentru conturarea unei imagini de ansamblu asupra țărilor surprinse în analiză si eliminarea redundanței informaționale.
1. Prezentarea datelor
În cadrul proiectului au fost supuse analizei 25 de țări din Europa cu atributele:
- x1- Productivitatea resurselor (Resource productivity) - variabilă cantitativă continuă
- x2- Rate de ocupare a lucratorilor in varsta (Employment rate of older workers%) - variabilă cantitativă continuă
- x3- Ani de viață sănătoasa-femei (Healthy life years - females) - variabilă cantitativă discretă
- x4- Emisiile de gaze cu efect de sera (Greenhouse gas emissions) - variabilă cantitativă continuă
- x5- Ponderea energiei regenerabile în consumul final brut de energie (Share of renewable energy in gross final energy consumption) - variabilă cantitativă continuă
- x6- Consumul de energie de transport în raport cu PIB (Energy consumption of transport relative to GDP)-variabilă cantitativă continuă
- x7- Asistența oficială pentru dezvoltare ca procent din venitul național brut (Official development assistance as share of gross national income) - variabilă cantitativă continuă
- x8- PIB-ul real pe capital, rata de creștere (Real GDP per capital, growth rate)- variabilă cantitativă continuă
- x9- Persoanele expuse riscului de sărăcie sau de excluziune socială % (People at-risk-of-poverty or social exclusion %) - variabilă cantitativă discretă
- x10- Rata de sinucidere, pe grupe de varstă - Total (Suicide death rate, by age group - Total) - variabilă cantitativă continua
Datele au fost preluate de pe Eurostat pentru anul 2016.
Preview document
Conținut arhivă zip
- Analiza datelor.docx