Cuprins
- 1. Itroducere 3
- 1.1 Domeniile tehnologiei vorbirii 4
- 1.2 Sinteza vorbirii 6
- 1.3 Conversia text-voce 7
- 2. Recunoaşterea vorbirii 10
- 2.1 Recunoaşterea vorbitorului 13
- 2.2 Dialogul cu calculatorul 14
- 2.3 Definirea unor noţiuni 16
- 2.4 Sinteză pe bază de reguli 18
- 3.Tipurile de sinteză în dispozitivul de calcul 19
- 3.1 Sinteza pe bază de eşantioane în spaţiul amplitudine-timp 19
- 3.2 Utilizarea modulaţiei Delta 20
- 3.3 Sinteza cu generatori de frecvenţă 21
- 3.4 Sintetizatoare cu „filtre de canal” 22
- 3.5 Sintetizatoare cu predicţie liniară 23
- 3.6 Sintetizatoare complexe bazate pe forme de undă 25
- 3.7 Sintetizatoare formantice 27
- 4.Aplicaţii ale analizei, recunoaşterii şi sintezei vorbirii 30
- 4.1 Aplicaţii în industrie 30
- 4.2 Aplicaţii în transporturi 31
- 4.3 Aplicaţii în medicină 32
- 4.4 Aplicaţii în telecomunicaţii 32
- 5.Generalităţi 35
- 6. Bibliografie 36
Extras din proiect
1.Introducere
Prelucrarea vorbirii este o disciplină care cuprinde o mare varietate de tehnologii şi aplicaţii. Multe dintre aceste aplicaţii, cum sunt recunoaşterea automată şi sinteza, au deja o certă tradiţie datorită cîtorva decenii de cercetări intense, altele sunt mai puţin cunoscute sau sunt de date ceva mai recentă, fiind totuşi la fel de importante şi de utile. Desigur că cercetгrile efectuate ca şi efortul mai mare depus în problemele de prelucrare a vorbirii se datorează în primul rînd impactului economic puternic pe care aplicaţiile ei le produc sau le pot produce ţn viitor.
Cu toate că s-au făcut paşi importanţi în acest domeniu, rezultatele sunt încă departe de aşteptări. Sarcinile enunţate iniţial s-au dovedit în timp a fi deosebit de dificile, în principal datorită complexităţii semnalului vocal ca şi a dificultăţilor de prelucrarea acestuia, dificultăţi legate fie de recunoaşterea conţinutului său informaţional (semnalul vocal depinzînd puternic de vorbitor şi de condiţiile în care acesta rosteşte un mesaj), fie de producerea sa, fie de transmiterea acestui semnal la distanţă.
Metodele utilizate de tehnologiile actuale, deşi au performanţe foarte bune pentru anumite sarcini particulare, par a nu fi capabile să le rezolve în totalitate. Ideea de a aborda prelucrarea vorbirii (domeniu ce aparţine, teoretic, atît prelucrării semnalelor, cît şi recunoaşterii formelor) şi din alte puncte de vedere, eventual mai apropiate de modul în care reuşeşte omul să indeplinească această sarcină, este deci firească.
În cadrul domeniilor tehnologiei vorbirii, sinteza automată a vorbirii şi în special sinteza pornind de la un text scris oarecare ("Text - To - Speech" - TTS) ocupă un loc aparte, deoarece poate juca un rol fundamental în interfaţa dintre om şi maşină. Un sistem de sinteză pornind de la text poate oferi o gamă importantă de aplicaţii dintr-un mare număr de domenii, de la accesul la poşta electronică şi la diferite baze de date prin reţelele telefonice convenţionale standard şi pînă la sisteme de citit pentru nevăzători.
Deşi inteligibilitatea vorbirii sintetice realizată pînă în prezent este bună, naturaleţea necesită încă îmbunătăţiri pentru sistemele cu vocabulare nelimitate (TSS). Un motiv al acestei situaţii este sensibilitatea urechii noastre la multe efecte articulatorii, care sunt dificil de cuantificat matematic. Trebuie accentuat faptul că dependenţa performanţelor sistemelor de sinteză automată de limba în care se comunică este esenţială.
1.1 Domeniile tehnologiei vorbirii
Încă din cele mai vechi timpuri comunicarea prin voce a reprezentat modalitatea dominantă prin care oamenii au creat legături sociale şi au schimbat informaţie.
În zilele noastre, limbajul vorbit este răspândit cu ajutorul mass-media şi reprezintă încă principalul mijloc de informare a oamenilor.
Dacă până nu demult limbajul vorbit reprezenta o modalitate de interacţiune subiect uman –subiect uman, odată cu dezvoltarea microelectronicii şi cu creşterea accesibilităţii tehnicii de calcul, comunicarea prin voce devine un mijloc de comunicare între subiectul uman şi maşina de calcul.
Din păcate, din cauza limitărilor tehnologice în ceea ce priveşte implementarea comunicării prin voce la nivelul calculatoarelor electronice, nu se poate încă spune că limbajul vorbit poate înlocui total modalităţile tradiţionale de interacţiune om – maşină, precum interfeţele grafice acţionate cu ajutorul claviaturilor sau altor dispozitive specifice.
Dacă astăzi încă interfeţele grafice reprezintă modalitatea predilectă de interacţiune om – calculator, este de aşteptat ca acestea să poată fi în totalitate înlocuite prin interfeţe vocale. Înlocuirea interfeţelor grafice prin interfeţe comandate prin voce este de dorit din mai multe motive, printre care şi acela că interfeţele grafice actuale, oricît de expresive, nu sunt atît de intuitive precum cele vocale. În plus, pentru subiecţii umani cu diverse handicapuri sau afecţiuni ale analizatorului vizual, interfeţele grafice sunt inutilizabile. Mai mult, mijloacele de interacţiune cu interfeţele grafice se remarcă printr-o relativă lipsă de fiabilitate: de plidă, claviaturile calculatoarelor personale au o durată de viaţă relativ scurtă, comparativ cu microfoanele şi difuzoarele.
Preview document
Conținut arhivă zip
- Prelucrarea Vorbirii.doc