Cuprins
- Introducere 4
- Partea I 12
- Prezentarea conceptelor implicate 12
- 1.1 INTERNET 13
- 1.1.1 ARPANET 13
- 1.1.2 NSFNET 17
- 1.1.3 Internet-ul 19
- 1.1.4 Adrese IP 29
- 1.2 WORLD WIDE WEB 31
- 1.2.1 Prezentarea WWW 31
- 1.2.2 HTML si URI 35
- 1.3 UNIX 38
- 1.3.1 Introducere 38
- 1.3.2 Istoria UNIX 38
- Partea II 46
- Proiectarea si implementarea 46
- motorului de cautare 46
- 2.1 SPECIFICAREA CERINTELOR 47
- 2.1.1 Abstractizarea cerintelor 47
- 2.1.2 Limitari ale posibilitatilor de realizare a obiectivelor si probleme care trebuiesc solutionate 48
- 2.1.3 Observatii privind alegerea cerintelor aplicatiei curente 53
- 2.1.4 Specificarea propriu zisa a cerintelor 55
- 2.2 STRATEGIILE ALESE IN IMPLEMENTARE 57
- 2.2.1. Spider-ul 57
- 2.2.2 Observatii asupra bazei de date 60
- 2.3 IMPLEMENTAREA 69
- 2.3.1 Alegerea strategiilor de implementare 69
- 2.3.2 Spider-ul 69
- Bibliografie 77
Extras din proiect
Introducere
Pana in 1990 Internetul a fost folosit cu precadere de catre cercetatori din domeniul academic, guvernamental si industrial. Cateva aplicatii (de exemplu e-mail*, telnet, ftp) erau intr-adevar de interes mai larg. Dar ceea ce a facut ca popularitatea sa sa creasca fara precedent, in randul a milioane de utilizatori din toate domeniile, a fost o aplicatie noua, WWW (World Wide Web - sau mai simplu : WEB). Acesta aplicatie, inventata de fizicianul Tim Berners Lee de la CERN, nu a modificat nici una din facilitatile existente, in schimb le-a facut mai usor de folosit. Impreuna cu programul de navigare Mosaic, scris la Centrul National pentru Aplicatiile Supercalculatoarelor, WWW-ul a facut posibil ca un sit sa puna la dispozitie un numar de pagini de informatii continand text, imagini, sunet si chiar imagini video in miscare, in fiecare pagina existand legaturi (referinte) catre alte pagini, lagaturi care puteau referi orice alta informatie din WWW. Printr-un sinplu “clic” cu mouse-ul pe o legatura, utilizatorul este imediat “transportat” la pagina indicata de legatura, oriunde in lume. De exemplu multe firme au pe WEB o pagina principala cu intrari care trimit la pagini cu informatii asupra produselor, liste de preturi, reduceri, suport tehnic (online), comunicare cu angajatii, informatii despre actionari, etc. Pagina poate contine si referinte la paginile altor sucursale (departate geografic) ale aceleiasi firme, toate putand fi accesate ca un tot unitar.
Intr-un timp foarte scurt au aparut alte tipuri de pagini: hartio, tabele de cotatii la bursa, cataloage de biblioteca, programe radio inregistrate si chiar pagini continand textele complete ale unor carti carora le-au expirat drepturile de autor (Mark Twain, Charles Dickens, etc). De asemenea multi oameni au pagini personale (home pages).
In primul an de la lansarea Mosaic-ului, numarul de servere WWW a crescut de la 1000 la 7000. Aceasta enorma crestere va continua, fara indoiala, in urmatorii ani si va reprezenta, probabil, forta care va conduce tehnologia si utilizarea Internet-ului in mileniul III. Informatia de pe WEB se mareste in fiecare secunda, noi si noi posibilitati deschizandu-se. Dar dupa o era de explozie a informatiei trebuie in mod necesar sa apara si o era de structurare a sa. Multe pagini WEB au inca o structura haotica, libertatea de legare a paginilor ducand deseori la structuri greu de urmarit si inteles. Pe langa acest aspect caruia in ultimul timp i se acorda o mai mare atentie, volumul mare de informatii creeaza inca o problema : problema gasirii si regasirii informatiei dorite. Daca pentru regasirea informatiei fiecare utilizator isi poate creea “Bookmarks-uri” cu diferite structuri, cautarea unei informatii este o sarcina mult mai grea. Adeseori cere experienta si chiar noroc. Din punct de vedere al structurii, WEB-ul reprezinta un graf cu o mare conectivitare (se poate avansa conjectura ca 90% din el este un graf conex, langa care coexista insulite mici neconectate). Astfel ca teoretic, pornind de la o pagina situata in aceste cel mai mare subgarf conex, poti parcurge 90% din informatia de pe Web, de fapt cvasitotalitatea informatiei de larg interes. Algoritmi de parcurgere si cautare intr-un graf conex exista. Dar problema nu este gasirea unui algoritm de parcurgere, ci timpul necesar acestei cautari, datorita dimensiunii grafului. Se pot imagina automate care sa caute pe Internet (pe nivele de exemplu, cautarea in adancime avand un grad prea mare de recursivitate), dar parcurgerea informatiilor intregului Web - datorita si vitezei conexiunilor - este o sarcina practic imposibila.
De aceea se cauta noi modalitati de structurare a informatiilor pe WEB. S-a inceput cu liste de pagini principale, cu o descriere sumara a ceea ce se gaseste pe respectivul sit. Aceasta a dat rezultate o vreme, dar in scurt timp listele au capatat dimensiuni enorme, trecandu-se la structurarea lor pe domenii si subdomenii. Dar si acestea s-au dovedit a nu fi in stare sa ofere o cantitate de informatii suficienta utilizatorului care vrea sa caute ceva pe WEB. Munca de intretinere a informatiilor era enorma, si chiar solutia de a limensiuni enorme, trecandu-se la structurarea lor pe domenii si subdomenii.
Preview document
Conținut arhivă zip
- Motoare de Cautare pe Web.doc