Extras din curs
Extragerea informației (IE) este sarcina de a extrage în mod automat informații structurate din documente nestructurate și / sau semi-structurate care pot fi citite automat. În cele mai multe cazuri, această activitate se referă la procesarea textelor în limbaj natural prin metode PLN. Activități recente în procesarea documentelor multimedia, cum ar fi adnotare automată și extragerea conținutului de imagini / audio / video ar putea fi considerate ca extragere a informației.
Extragerea informaţiei (IE) este și identificarea automată în texte a tipurilor de entităţi, relaţii sau evenimente selectate. Acoperă o gamă largă de sarcini, de la găsirea tuturor denumirilor de companii într-un text până la găsirea tuturor crimelor, inclusiv cine pe cine a omorât, unde și când. Așa capabilități sunt din ce în ce mai importante pentru filtrarea volumului enorm de texte on sau off line pentru a obține informația specifică necesară.
Cele mai intensiv studiate sarcini ale IE sunt identificarea și clasificarea numelor (denumirilor) și extragerea evenimentelor.
Din cauza dificultății problemei, abordările actuale ale IE se concentrează pe domenii restrânse. Un exemplu este extragerea din rapoartele de știri legate de fuziuni corporative, cum ar fi acel notat prin relația formală:
FuziuneDintre (companie 1, companie2, data).
dintr-o propoziție din știrile on-line, cum ar fi:
"Ieri, New York Food Inc a anuntat achizitia Bar Corp"
Un obiectiv larg al IE este de a permite să se facă calculul pe datele nestructurate anterior. Un obiectiv mai specific este acela de a permite raționamentului logic să tragă concluzii pe baza conținutului de logică a datelor de intrare. Datele structurate sunt date bine definite semantic dintr-un domeniu țintă ales, interpretate în ceea ce privește categoria și contextul.
Extragerea Informației este parte a unui puzzle mai mare, care se ocupă cu problema elaborării unor metode automate de gestionare a textului, dincolo de transmiterea, stocarea și afișarea lui. Disciplina de regăsire a informației (IR) a dezvoltat metode automate, de obicei, statistice, pentru indexarea de colecții mari de documente și clasificarea documentelor. O altă abordare complementară este aceea de procesare a limbajului natural (NLP), care a rezolvat problema de modelarea procesării limbajului uman cu un succes considerabil atunci când se ia în considerare amploarea sarcinii. În ceea ce privește dificultatea și focusarea, IE se ocupă cu sarcini între IR și PLN. În ceea ce privește intrarea, se presupune existența unui set de documente în care fiecare document urmează un șablon, adică descrie una sau mai multe entități sau evenimente într-un mod care este similar cu cele din alte documente, dar care diferă în detalii. Un exemplu, să considerăm un grup de articole Newswire privind terorismul din America Latină, cu presupunerea că fiecare articol să se bazeze pe unul sau mai multe acte teroriste. De asemenea, definim pentru orice sarcină IE dată un șablon, care este un (sau un set de) cadru (e) de caz pentru deținerea informațiillor conținute într-un singur document. Pentru exemplul terorismului, un șablon ar avea sloturi corespunzătoare făptuitorului, victimei și armei actului terorist, precum și data la care a avut loc evenimentul. Un sistem de IE pentru această problemă este necesar pentru a "înțelege" un articol - atac suficient doar pentru a găsi date corespunzătoare sloturilor din acest șablon.
Extragerea de informații datează de la sfârșitul anilor 1970, în etapa de început a NLP. Un sistem comercial timpuriu de la mijlocul anilor 1980 a fost JASPER construit pentru Reuters de către Grupul Carnegie, cu scopul de a furniza știri financiare în timp real pentru comercianții financiari. Începând cu 1987, IE a fost stimulat de o serie de Conferințe de înțelegere a mesajelor MUC este o conferință bazată pe competiție, care s-a concentrat pe următoarele domenii:
- MUC-1 (1987), MUC-2 (1989): mesaje în operațiuni navale.
- MUC-3 (1991), MUC-4 (1992): Terorismul în țările din America Latină.
- MUC-5 (1993): Societățile mixte și domeniul microelectronicii.
- MUC-6 (1995): Știri privind schimbările de management.
- MUC-7 (1998): rapoarte de lansare a satelitului.
Un sprijin considerabil a venit din partea Agenției pentru Proiecte de Cercetare Avansată de Apărare din SUA (DARPA), care a dorit să automatizeze sarcini banale efectuate de către analiștii din guvern, cum ar fi scanarea ziarelor pentru posibile legături cu terorismul.
Semnificație actuală
Semnificația actuală a EI se referă la cantitatea tot mai mare de informații disponibile în formă nestructurată. Tim Berners-Lee, inventatorul World Wide Web, se referă la rețeaua Internet existenta ca și la documente web și susține că majoritatea conținutului poate să fie pus la dispoziție ca o rețea de date. Web-ul este format în mare parte din documente nestructurate din care lipsesc metadate semantice. Cunoștințele conținute în aceste documente pot fi mai accesibile pentru prelucrarea automată prin transformare într-o formă relațională, sau prin marcarea cu etichete XML. Un agent inteligent de monitorizare a unor date din știri necesită IE pentru a transforma datele nestructurate in ceva ce poate fi motivat. O aplicație tipică a IE este de a scana un set de documente scrise într-un limbaj natural și a popula o bază de date cu informațiile extrase.
Sarcini și subactivități
Aplicarea extragerii informației pe text este legată de problema simplificării textului în scopul de a crea o imagine structurată a informațiilor prezente în textul liber. Scopul general fiind acela de a crea un text care poate fi citit mai ușor de mașină pentru a procesa propozițiile. Subactivitățile tipice ale IE includ:
Preview document
Conținut arhivă zip
- Extragerea informatiei.docx
- Sumarizarea automata a textelor.docx