Details

Producción de un corpus oral y modelado prosódico para la síntesis del habla expresiva

by Iriondo Sanz, Ignasi

Abstract (Summary)
RESUM: Aquesta tesi aborda diferents aspectes relacionats amb la síntesi de la parla expressiva. Es parteix de lexperiència prèvia en sistemes de conversió de text a parla del Grup en Processament Multimodal (GPMM) dEnginyeria i Arquitectura La Salle, amb lobjectiu de millorar la capacitat expressiva daquest tipus de sistemes. La parla expressiva transmet informació paralingüística com, per exemple, lemoció del parlant, el seu estat dànim, una determinada intenció o aspectes relacionats amb lentorn o amb el seu interlocutor. Els dos objectius principals de la present tesi consisteixen, duna banda, en el desenvolupament dun corpus oral expressiu i, duna altra, en la proposta dun sistema de modelatge i predicció de la prosòdia per a la seva utilització en làmbit de la síntesi expressiva del parla. En primer lloc, es requereix un corpus oral adequat per a la generació dalguns dels mòduls que componen un sistema de síntesi del parla expressiva. La falta de disponibilitat dun recurs daquest tipus va motivar el desenvolupament dun nou corpus. A partir de lestudi dels procediments dobtenció de parla emocionada o expressiva i de lexperiència prèvia del grup, es planteja el disseny, lenregistrament, letiquetatge i la validació del nou corpus. El principal objectiu consisteix a aconseguir una elevada qualitat del senyal i una cobertura fonètica suficient (segmental i prosòdica), sense renunciar a lautenticitat des del punt de vista de lexpressivitat oral. El corpus desenvolupat té una durada de més de cinc hores i conté cinc estils expressius: neutre, alegre, sensual, agressiu i trist. En tractar-se de parla expressiva obtinguda mitjançant la lectura de textos semànticament relacionats amb els estils definits, sha requerit un procés de validació que garanteixi que les locucions que formen el corpus incorporin el contingut expressiu desitjat. Lavaluació exhaustiva de tots els enunciats del corpus seria excessivament costosa en un corpus de gran grandària. Daltra banda, no existeix suficient coneixement científic per a emular completament la percepció subjectiva mitjançant tècniques automàtiques que permetin una validació exhaustiva i fiable dels corpus orals. En el present treball sha proposat un mètode que suposa un avanç cap a una solució pràctica i eficient daquest problema, mitjançant la combinació duna avaluació subjectiva amb tècniques didentificació automàtica de lemoció en el parla. El mètode proposat sutilitza per a portar a terme una revisió automàtica de lexpressivitat del corpus desenvolupat. Finalment, una prova subjectiva ha permès validar el correcte funcionament daquest procés automàtic. En segon lloc i, sobre la base dels coneixements actuals, de lexperiència adquirida i dels reptes que es desitjaven abordar, sha desenvolupat un sistema destimació de la prosòdia basat en corpus. Tal sistema es caracteritza per modelar de forma conjunta les funcions lingüística i paralingüística de la prosòdia a partir de lextracció automàtica datributs prosòdics del text, que constitueixen lentrada dun sistema daprenentatge automàtic que prediu els trets prosòdics modelats prèviament. El sistema de modelatge prosòdic presentat en aquest treball es fonamenta en el raonament basat en casos, que es tracta duna tècnica daprenentatge automàtic per analogia. Per a lajustament dalguns paràmetres del sistema desenvolupat i per a la seva avaluació shan utilitzat mesures objectives de lerror i de la correlació calculades en les locucions del conjunt de prova. Atès que les mesures objectives sempre es refereixen a casos concrets, no aporten informació sobre el grau dacceptació que tindrà la parla sintetitzada en els oïdors. Per tant, shan portat a terme una sèrie de proves de percepció en les quals un conjunt davaluadors ha puntuat un grup destímuls en cada estil. Finalment, shan analitzat els resultats per a cada estil i shan comparat amb les mesures objectives obtingudes, el que ha permès extreure algunes conclusions sobre la rellevància dels trets prosòdics en la parla expressiva, així com constatar que els resultats generats pel mòdul prosòdic han tingut una bona acceptació, encara que shan produït diferències segons lestil.
This document abstract is also available in English and Spanish.
Document Full Text
The full text for this document is available in Spanish.
Bibliographical Information:

Advisor:Llisterri, Joaquim; Socoró Carrié, Joan Claudi

School:Universitat Rovira i Virgili

School Location:Spain

Source Type:Master's Thesis

Keywords:eals comunicacions i teoria del senyal

ISBN:

Date of Publication:06/18/2008

© 2009 OpenThesis.org. All Rights Reserved.