Extras din curs
După mai multe decenii în cursul cărora mijloace şi tehnici informatice tot mai evoluate au contribuit la amplificarea capacităţii de memorare şi stocare a datelor, ultimii ani au marcat o reorientare semnificativă în utilizarea volumelor de date stocate, de la un proces de explorare retrospectivă spre unul cu caracter prospectiv. Această schimbare a devenit posibilă ca urmare a maturizării tehnologiilor legate de data mining.
Denumirea provine de la analogia cu activitatea minieră; tot aşa cum este necesară dislocarea şi rafinarea a tone de minereu pentru a obţine câteva grame de aur, aici sunt examinate şi analizate sute de mii sau milioane de date pentru a extrage din ele informaţii şi semnificaţii noi, dincolo de scopurile pentru care acestea au fost colectate şi memorate la origine.
Data mining are, ca şi alte concepte folosite în informatică, mai multe definiţii. În esenţă, acestea converg spre ideea formulată anterior: un proces de extragere de informaţii noi din colecţiile de date existente. Termenul de dată este utilizat aici cu semnificaţia de descriere a unui eveniment precis, produs în lumea reală şi verificabil prin raportare la aceasta. Informaţia (sau cunoaşterea transmisă) constituie descrierea unei categorii abstracte, ce acoperă mai multe evenimente sau exemple concrete.
Principiul de funcţionare în data mining este următorul: se prelucrează datele referitoare la perioadele trecute, examinând o varietate de situaţii care s-au produs şi ale căror rezultate sau consecinţe sunt deci, bine cunoscute, pentru a evidenţia caracteristicile acestora şi a permite elaborarea unui model. Odată construit, modelul poate fi aplicat situaţiilor noi de acelaşi tip.
Informaţiile obţinute prin data mining sunt de natură predictivă sau descriptivă.
Un exemplu tipic de problemă predictivă este direcţionarea acţiunilor de marketing. Datele rezultate din corespondenţa promoţională trecută se folosesc pentru a identifica destinatarii pentru care următoarea campanie promoţională poate aduce un maxim de efect.
Detectarea tranzacţiilor frauduloase cu carduri bancare constituie unul dintre exemplele tipice de aplicaţii descriptive. Explorarea ansamblului tranzacţiilor permite evidenţierea unui anumit tipar comportamental, considerat normal. Deîndată ce la un bancomat se cere efectuarea unei tranzacţii ce iese din acest tipar, solicitarea poate fi refuzată. Este posibil ca operaţia cerută să fie sau să nu fie frauduloasă; o analiză ulterioară poate stabili acest lucru dar, în acest stadiu, sistemul o respinge pentru a preveni orice consecinţe nedorite.
4.2 Fundamentele explorării datelor
Expansiunea tehnicilor de data mining se explică, printre altele, prin faptul că firmele au acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacţii de diverse tipuri, derulate de-a lungul mai multor ani. Băncile posedă, spre exemplu, arhive de milioane de înregistrări, în care sunt consemnate în detaliu operaţiile efectuate de clienţii lor. În orice firmă se găsesc mii şi sute de mii de înregistrări privitoare la cumpărările, vânzările, încasările şi plăţile făcute. Societăţile de telefonie mobilă posedă date privitoare la fiecare convorbire efectuată de abonaţii lor, incluzând data, momentul şi locul apelului, numărul de telefon al corespondentului, durata convorbirii. Un magazin de tipul cash and carry posedă sute de mii de înregistrări, provenind de la casele de marcaj, în care figurează nu numai articolele cumpărate ci şi cumpărătorii, identificaţi prin legitimaţiile de acces. Multă vreme acestea s-au acumulat pur şi simplu în virtutea nevoii de arhivare. Creşterea permanentă a concurenţei, exigenţele din ce în ce mai mari ale pieţei au determinat firmele să devină conştiente de potenţialul pe care aceste arhive de date îl reprezintă. Toate exemplele enumerate au un element comun: vizează, în mod direct sau indirect, clienţii. Exploatarea lor din această perspectivă oferă oportunităţi deosebite. Datele sunt la dispoziţia organizaţiei respective; datele sunt cât se poate de precise şi analitice; datele sunt în volum mare şi acoperă perioade de timp de ordinul anilor. Dar relaţia cu clienţii nu este singura direcţie de re-utilizare a acestor date. În multe alte domenii ale activităţii de afaceri, tendinţele pe care acestea le încorporează sau le reflectă în mod obiectiv, structurile sau tiparele pe care le relevă sunt deosebit de valoroase.
Alături de existenţa colecţiilor de date istorice memorate pe suporturi informatice, încă doi factori explică emergenţa cunoscută actualmente de data mining: maturizarea algoritmilor şi a produselor program dedicate şi creşterea capacităţii de memorare şi prelucrare a calculatoarelor, care permite tratarea în corelaţie a volumelor foarte mari de date.
Unele dintre tehnicile de data mining datează de ceva mai mulţi ani. Algoritmii folosiţi au cunoscut însă un proces de evoluţie continuă, care a permis înlăturarea unora dintre limitele sau deficienţele iniţiale. Produsele program au evoluat şi ele spre o utilizare cât mai facilă, la un asemenea nivel încât pot fi folosite cu o cunoaştere minimă a tehnicii pe care o implementează. În sfârşit, au apărut firme care oferă spre vânzare colecţii de date istorice de uz general – cum ar fi, spre exemplu, evoluţia indicatorilor bursieri din ultimii 20 de ani - special constituite pentru asemenea utilizări.
Depozitele de date şi tehnologiile OLAP vizează şi ele datele colectate la nivelul organizaţiilor. În ciuda unor cerinţe şi prelucrări preliminare asemănătoare, există deosebiri esenţiale în privinţa demersului la care recurg fiecare dintre ele şi nu mai puţin, a obiectivelor urmărite. Nu este mai puţin adevărat că depozitele de date se pretează foarte bine ca surse pentru data mining iar rezultatele furnizate de acesta pot completa câmpurile înregistrărilor celor dintâi şi pot fi valorificate apoi prin proiecţiile multidimensionale specifice OLAP.
Preview document
Conținut arhivă zip
- Tehnologii pentru Extragerea Cunostintelor - Data Mining.doc