Busca:   en:
Inicio > Revista

Caracterización fonética del bilingüismo, análisis acústico del habla espontánea y evaluación de sistemas de síntesis del habla.(Parte 3/3)

Las líneas de investigación en fonética experimental que actualmente se desarrollan en el Departamento de Filología Española de la Universidad Autónoma de Barcelona, en el marco del Laboratorio de Fonética de la misma universidad, pueden encuadrarse en los siguientes ámbitos : la caracterización fonética del bilingüismo, el análisis acústico del habla espontánea y la evaluación fonética de los sistemas de síntesis del habla.
Joaquim Llisterri | 30/06/2002
3. La evaluación de los sistemas de síntesis del habla

3.1. El problema de la inteligibilidad y la naturalidad en los sistemas de conversión de texto a voz

Los avances experimentados en las últimas décadas en el campo de la tecnología del habla permiten disponer actualmente de sistemas de conversión de texto a voz que alcanzan un elevado grado de inteligibilidad y que, como ya apuntaban Pisoni et al. (1985) hace seis años, pronto llegarán a los niveles propios del habla natural. Sin embargo, tal como afirmaba Allen (1985) por las mismas fechas - y su opinión sigue siendo válida hoy en día -, aún no disponemos de sistemas de síntesis que reproduzcan adecuadamente la variabilidad fonética observada en el habla natural.

Vemos así cuáles son los dos grandes ejes alrededor de los cuales gira el problema de la utilización del habla sintetizada en aplicaciones reales: la inteligibilidad por un lado y la naturalidad por otro. Si bien se han realizado notables avances en la primera, no se ha conseguido aún alcanzar el grado de naturalidad deseable para una difusión masiva de los sistemas de conversión de texto a voz. La modelización de las variaciones fonéticas propias de un mismo locutor - cambios de timbre de la voz, de velocidad de elocución, de estilo de habla, de estado emotivo - o de las diferencias que se dan entre hablantes distintos - diferencias en el habla y en la voz de hombres y mujeres, marcas de la procedencia social o geográfica - son objeto de las investigaciones más recientes en el terreno de los conversores de texto a voz (Granström y Nord 1991).

La relación entre naturalidad e inteligibilidad es, en cierto modo, complementaria y depende en parte de la aplicación del sistema de síntesis. Bristow (1984) menciona, por ejemplo, que en el caso de una alarma industrial, es esencial mantener la inteligibilidad; sin embargo, en el complemento sonoro de un video juego la naturalidad es primordial; otras aplicaciones requieren un grado intermedio de ambas categorías, aunque una puede primar sobre otra: la inteligibilidad en las telecomunicaciones, cuando no hay un soporte visual complementario, y la naturalidad - junto con el tipo de voz - en las aplicaciones para usuarios no especialmente motivados que van acompañadas de un soporte visual, como podría ser el caso de la voz sintetizada en los automóviles.
Tal como ha ido avanzando el desarrollo de los sistemas de conversión de texto a voz, haciendo posible su utilización práctica, se ha ido imponiendo la necesidad de disponer de herramientas que permitan comparar las prestaciones de diversos sistemas de síntesis. Al mismo tiempo, se ha visto también el interés en estudiar la reacción al uso de la voz sintetizada y, muy especialmente, las diferencias en los mecanismos de percepción entre el habla sintetizada y el habla natural.

En concreto, siguiendo a Pisoni et al. (1985) pueden plantearse las cuestiones siguientes:

(1) ¿Con qué grado de precisión de reconocen los sonidos y las palabras sintetizadas?
(2) ¿Con qué precisión se entiende el sentido de una frase en habla sintetizada?
(3) ¿Qué dificultades plantea la percepción y la comprensión del habla sintetizada?

El desarrollo de estos temas de investigación ha llevado a la creación de un campo de trabajo conocido como Speech Assessment que se ocupa, en conjunto, del estudio de la posibilidad de utilización de la síntesis (output) y el reconocimiento (input) del habla en situaciones reales. Una muestra del interés que ha despertado entre la comunidad científica puede verse en las publicaciones monográficas que recientemente han aparecido sobre el tema (ESCA 1989; Pols (Ed) 1990).

Entre los proyectos europeos encuadrados en el programa ESPRIT figura el conocido como SAM - Harland et al. (Comps) (1989) -, dentro del cual se incluye un apartado dedicado a la evaluación de la inteligibilidad y la calidad de los sistemas de conversión de texto a voz. En este marco se han desarrollado una serie de herramientas estandardizadas en inglés, holandés, alemán, francés, italiano y sueco, sin que el español haya tenido de momento cabida en el proyecto.

Actualmente contamos con más de un sistema de conversión de texto a voz para el castellano (4), y parece por tanto que ha llegado el momento de dotarse de mecanismos que permitan evaluar tanto su inteligibilidad como su naturalidad y que favorezcan además la comparación objetiva entre sistemas distintos. Tal como se acaba de mencionar, estos instrumentos se han desarrollado ya para otras lenguas - especialmente para el inglés - y están siendo aplicados con éxito a un gran número de sistemas de síntesis existentes en la actualidad, tanto comercializados como a prototipos de laboratorio (5).

A continuación se revisan algunas de las técnicas de evaluación más comunmente utilizadas y se presentan algunas sugerencias para su adaptación al castellano, extraídas de trabajos en curso realizados en el Departamento de Filología Española de la UAB en el marco del Laboratorio de Fonética.

3.2. La evaluación de la inteligibilidad de los elementos segmentales aislados

Existen actualmente diversas propuestas de técnicas para llevar a cabo la evaluación de la inteligibilidad de los elementos segmentales aislados en un conversor de texto a voz. Toda ellas se basan en pruebas en las que un grupo de oyentes debe responder a una serie de estímulos sintetizados, identificando los elementos segmentales en los que se centra el estudio. Algunas derivan de pruebas de inteligibilidad diseñadas para el habla natural ya a finales de los años 50, mientras que otras se han concebido específicamente para la evaluación del habla sintetizada.

Uno de los tests más habituales lo constituye el llamado Test de Rimas (RT, Rhyme Test) que en su versión más actual y utilizada se conoce como Test de Rimas Modificado (MRT, Modified Rhyme Test); fue diseñado por Fairbanks en 1958 y modificado por House et al. en 1965. Se trata de un test formado por estímulos consistentes en palabras monosilábicas con la estructura consonante-vocal-consonante, en el que los oyentes deben elegir una palabra entre seis alternativas. Las palabras difieren en un único segmento, que se encuentra o en posición inicial o en posición final; una de las ventajas de este test es que ha sido utilizado en el habla natural, y existen por lo tanto medidas estandardizadas que pueden utilizarse como punto de referencia.
La adaptación al castellano ha sido llevada a cabo por Aguilar (1991 b), manteniendo las características del test original inglés: estímulos monosilábicos y estructura CVC (aceptando CV o VC en algunos casos). El requisito de la monosilabicidad plantea problemas importantes, dado que en ciertos casos ha debido recurrirse a palabras poco familiares o reducirse el número de alternativas ante la imposibilidad de encontrar seis palabras que sólo difieran en la consonante inicial o en la final. Por este motivo, el número de alternativas en la respuesta se ha reducido a 4. En el momento de seleccionar los monosílabos, se ha tenido en cuenta la mayor o menor frecuencia de aparición de la consonante, tendiendo a una aparición proporcional a la que se encuentra en la lengua; aún así, el equilibrio fonético no es un requisito del Test de Rimas. En la figura 1 se presentan algunos de los estímulos del test, tal como figuran en la hoja de respuesta; para realizarlo, el oyente debe señalar únicamente cuál es la palabra que oye entre todas las de la serie.
ABCD
1vanvasbahbar
2vedvenvesver
3daddandardas
4solsonsorsos
1salcalchaltal
2golcolsolrol
3cantanpandan
4hezpeztezvez
Figura 1: Algunos estímulos correspondientes a la adaptación castellana del test de rimas modificado. En los cuatro primeros se evalua la inteligibilidad de la consonante inicial, y en los cuatro últimos la de la consonante final (Aguilar, 1991 b).


Existen además otras herramientas, entre las que citaremos el Diagnostic Rhyme Test (DRT) de Voiers (1984), adaptado al castellano por Nadeu (1987) y actualmente en curso de revisión. También se dispone de una versión castellana del Fast Diagnostic Test (FDT), originalmente concebido por Loman y van Beezoijen (1988), en el que se contempla la inteligibilidad de todas las combinaciones posibles de consonante vocal en palabras de estructura CVC y VCV. La adaptación castellana realizada por Carbonell (1991), cubre de forma exhaustiva el inventario de fonemas del castellano y permite especialmente obtener matrices de confusiones consonánticas en distintas posiciones silábicas a partir de las cuales basar una evaluación sistemática de un sistema de conversión de texto a voz.

3.3. La evaluación de la inteligibilidad de palabras en contexto

Evidentemente, las pruebas anteriores nos ofrecen sólo una indicación de la inteligibilidad de elementos segmentales en palabras aisladas, con lo cual obtenemos con resultados que no reflejan la utilización de real del contexto que los hablantes realizan a la hora de percibir el habla, tanto natural como sintetizada. Por ello se han puesto a punto diversas pruebas en las que se evalua la inteligibilidad de elementos segmentales en palabras situadas en el interior de una frase.
Como en el caso anterior, las primeras pruebas se desarrollaron para el estudio de la comprensión del habla natural y fueron también utilizadas para el estudio de los trastornos de la producción y de la percepción del habla en personas con dificultades en este terreno.
Nos referiremos en primer lugar al corpus de enunciados conocido como las Frases Psicoacústicas de Harvard (Harvard Psychoacoustic Sentences), desarrolladas por Egan en 1948 para aplicaciones audiométricas. Su característica principal reside en el hecho de que se trata de frases con sentido, sintácticamente bien formadas y fonéticamente equilibradas. En nuestro Departamento este corpus ha sido adaptado al castellano por Valero (1991), siguiendo, en lo que se refiere al equilibrio fonético, la frecuencia de distribución de fonemas del español propuesta por Navarro Tomás (1946). En su versión actual se dispone de 10 grupos de 10 frases, manteniendo el equilibro fonético en el interior de cada grupo. La figura 2 ilustra algunas de las frases propuestas.

1 Puedes fumar, pero vete al balcón
2La tía Carmen quería guisar el conejo
3No des patadas a los rosales
4Necesito un centímetro para medir las dos telas
5Con un quilo de boniatos ya tengo de sobras
6Si quieres rezar, te dejo solo
7Nunca debí dinero ni lo tomé prestado
8Sus cacerías acabaron con la fauna de la zona
9Me diste la paga de este mes
Figura 2: Grupo de diez frases fonéticamente equilibradas correspondientes a la adaptación al castellano de las frases psicoacústicas de Harvard. La prueba de x2 entre la distribución teórica y la real da un valor de2.61 (Valero, 1991).


Sin embargo, pronto surgió la necesidad de desarrollar un nuevo corpus de frases en el que la redundancia contextual jugara un papel más reducido, y para ello se elaboraron las que se conocen como Frases Semánticamente Anómalas de Haskins, creadas por Nye y Gaitenby en 1974. Se trata de un conjunto de enunciados fonéticamente equilibrados, sujetos a restricciones en cuanto a su estructura sintáctica y que cumplen la condición de no tener un significado predictible. En el momento de responder al test, el oyente debe escribir la palabra que falta en la hoja de respuesta. En la adaptación al castellano realizada por Serra (1991), se ha elegido la estructura sintáctica artículo + nombre + adjetivo + verbo + artículo + adjetivo + nombre, siguiendo muy de cerca el modelo inglés; se dispone actualmente de 50 frases fonéticamente equilibradas siguiendo los criterios expuestos en el párrafo anterior. La comparación con la distribución teórica de Navarro Tomás (1946) arroja un valor de x2 de 2.02. En la figura 3 se ofrece una muestra de estas frases:
1El niño sedoso tuerce el piso
2La acera fina cuenta la muesca
3El océano generoso pinta la sobriedad
4La butaca fatídica amasa la tristeza
5La cámara divina mina los nidos
Figura 3: Muestra de frases correspondientes a la adaptación al castellano de las frases semánticamente anómalas de Haskins (Serra, 1991).

Cabe mencionar también en este apartado el corpus de frases que ha sido desarrollado para varias lenguas europeas en el marco del proyecto SAM por Benoit et al. (1989), para el cual no se dispone aún de una versión castellana.

3.4. La evaluación de la comprensión

Naturalmente, el próximo paso una vez estudiado el nivel segmental y el nivel de la frase, es la evaluación de la comprensión de textos completos. Para ello, se han utilizado para el inglés pruebas de comprensión lectora similares a las usadas en el habla natural. Algunas de ellas se comentan en Pisoni et al. (1985) y en Pisoni (1987). Alberte (1991) ha preparado una serie de 15 textos en castellano seguido cada uno de ellos de un conjunto de preguntas en el formato de elección múltiple siguiendo el modelo de Pisoni (1987). Con ellos se evalua la comprensión, por parte del oyente, de los contenidos de un fragmento coherente sintetizado; los textos cubren una amplia gama temática, oscilando entre las 147 y las 371 palabras con distintos grados de dificultad en función del tema.

Tal como se ha visto en los párrafos anteriores, empezamos a disponer de métodos que nos permiten plantearnos la evaluación de diversos sistemas de conversión de texto a voz existentes para el castellano, especialmente en el ámbito de la inteligibilidad. Motivos de espacio nos impiden tratar con cierto detalle la cuestión, más compleja y menos estudiada hasta el momento, de la evaluación de la naturalidad y la aceptabilidad por parte del usuario de los sistemas de síntesis. Remitimos al lector a los trabajos de Pavlovic et al. (1989 a, b) y Robert et al. (1989) en los que se describen algunas de las técnicas más habituales. Su desarrollo para el castellano está aún pendiente, aunque contamos con poder iniciarlo en un breve plazo.
Finalmente, cabe mencionar que el campo de la evaluación del habla sintetizada constituye un terreno ideal para la colaboración entre los técnicos que se ocupan del diseño de los sistemas y los lingüistas, que tienen en su haber la experiencia - y en algunos casos las herramientas - necesaria para observar las diferencias entre el producto sintetizado y el habla natural.

Este artículo consta de tres partes
Caracterización fonética del bilingüismo Análisis acústico del habla espontáneaLa evaluación de los sistemas de síntesis del habla

 

Referencias

MACK, M. (1982) "Voicing-dependent vowel duration in English and French: Monolingual and Bilingual Production", Journal of the Acoustical Society of America 71,1: 173-178.
MACHUCA, M.J. (1991) Análisis acústico de las consonantes nasales del español en habla espontánea y en habla de laboratorio. Universidad Autónoma de Barcelona, Departamento de Filología Española. Proyecto de investigación.
MÄGISTE, E. (1984) "Learning a Third Language ", Journal of Multilingual and Multicultural Development 5,5: 415-421.
MARTÍ, J.- NIÑEROLA, D. (1987) "SINCAS: un conversor texto-voz en castellano", Procesamiento del lenguaje natural, Boletín n¼ 5: 111-122.
NADEU, C. (1987) Evaluación subjetiva de la calidad del habla. Universitat Politècnica de Catalunya, Departament de Teoria del Senyal i Comunicacions. ms no publicado.
NAVARRO TOMÁS, T. (1946) "Escala de frecuencia de fonemas españoles "in Estudios de fonología española. New York: Las Américas Publishing Company, 1966 2a ed. pp. 15-30.
NYE, P.W.- GAITENBY, J. (1974) "The Intelligibility of Synthetic Monosyllable Words in Short, Syntactically Normal Sentences", Haskins Laboratories Status Report on Speech Research SR-37/38: 169-190.
OLABE, J.C.- SANTOS, A.- MARTÍNEZ, E.- MUÑOZ, E.- MARTÍNEZ, M.- QUILIS, A.- BERSTEIN, J. (1984) "Real Time Text-to-Speech System for Spanish", Proceedings of the IEEE-ICASSP-84, San Diego, 2-10 pp. 1-3.
OLASZY, G. (1980) "MULTIVOX - A flexible text-to-speech synthesis for Hungarian, Finnish, German, Esperanto, Italian and other languages for IBM - PC "in TUBACH, J.P.- MARIANI, J.J. (Eds) (1989) Eurospeech 89. European Conference on Speech Communication and Technology. Paris, September 1989. Edinburgh: CEP Consultants Ltd. vol 2 pp. 525-29.
PAVLOVIC, C.- ROSSI, M.- ESPESSER, R. (1989 a) "Direct scaling of the performance of text-to-speech synthesis systems "in TUBACH, J.P.- MARIANI, J.J. (Eds) Eurospeech 89. European Conference on Speech Communication and Technology. Paris, September 1989. Edinburgh: CEP Consultants Ltd. vol 2. pp. 644-647.
PAVLOVIC, C.- ROSSI, M.- ESPESSER, R. (1989 b) "Subjective assessment of acceptability, intelligibility and naturalness of text-to-speech synthesis ", Proceedings of the ESCA Tutorial Day and Workshop on Speech Input/Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989. pp. 3.2.1.- 3.2.5.
PÉREZ, J.C.- VIDAL, E. (1991) "Un sistema de conversión de texto a voz para el castellano", Comunicación presentada en el VII Congreso de la SEPLN, Valencia, 3-4 de octubre de 1991.
PISONI, D. (1987) "Some measures of intelligibility and comprehension "in ALLEN, J.- HUNNICUTT, M.S. - KLATT, D.H. From Text to Speech. The MITalk System. Cambridge: Cambridge University Press. pp. 151-171.
PISONI, D. B.- NUSBAUM, H. C.- GREENE, B. G. (1985) "Perception of Synthetic Speech Generated by Rule", Proceedings of the IEEE 73,11: 1665-1676.
POCH, D. - FERNÁNDEZ, N.- MARTÍNEZ, G. (1989) "Some problems of coarticulation in CV stop syllables in Spanish and Catalan spontaneous speech", in SZENDE, T. (Ed) Proceedings of the Speech Research '89 (Magyar Fonetikai Füzetek / Hungarian Papers in Phonetics 21). Budapest: Linguistics Institute of the Hungarian Academy of Sciences. Vol. 2. pp. 111-115.
POLS, L.C.W. (1989) "Improving synthetic speech quality by systematic evaluation ", Proceedings of the ESCA Tutorial Day and Workshop on Speech Input/Output Assessment and Speech Databases. Noordwijkerhout, the Netherlands, 20-23 September 1989. pp. 3-11.
POLS, L.C.W. (Ed) (1990) Speech Input / Output Assessment and Speech Databases, Special Issue, Speech Communication 9,4.
RINGBOM, H. (1986) "Crosslinguistic influence and the foreign language learning process "in KELLERMAN, E.- SHARWOOD-SMITH, M. (Eds) Crosslinguistic Influence in Second Language Acquisition. New York: Pergamon Press. pp. 150-162.
RINGBOM, H. (1987) The Role of the First Language in Foreign Language Learning. Clevedon, Avon: Multilingual Matters.
ROBERT, J.M.- CHOINIERE, A.- DESCOUT, R. (1989) "Subjective evaluation of the naturalness and acceptability of three text-to-speech systems in French "in TUBACH, J.P.- MARIANI, J.J. (Eds) Eurospeech 89. European Conference on Speech Communication and Technology. Paris, September 1989. Edinburgh: CEP Consultants Ltd. vol 2. pp. 640-643.
SERRA, A. (1991) Un test de evaluación de habla sintetizada para el castellano: las frases semánticamente anómalas de Haskins. Universidad Autónoma de Barcelona, Departamento de Filología Española. ms no publicado.
VALERO, A. (1991) El corpus de las frases psicoacústicas de Harvard: una adaptación al castellano. Universidad Autónoma de Barcelona, Departamento de Filología Española. ms no publicado.
VIEREGGE, W.H.- KERKOF, P.A.M.- BOVES, L.- VAN GERWEN, R. (1987) "Automatic Text-to-speech Conversion for Spanish "Proceedings of the Institute of Phonetics, Catholic University of Nijmegen 11: 29-30.
VOIERS, W D. (1984) "Evaluating Processed Speech using the Diagnostic Rhyme Test", Speech Technology 1,4: 30-39.
WILLIAMS, L. (1982) "Phonetic Variation as a Function of Second Language Learning" in YENI-KOMSHIAN, G. - KAVANAGH, J.F.- FERGUSON, C.A. (Eds.) Child Phonology. Vol 2: Perception. New York: Academic Press. pp. 185-215.

NOTAS:
(4) Entre los que han llegado a nuestro conocimiento cabe citar el sistema desarrollado en la ETS de Ingenieros de Telecomunicación de Madrid en colaboración con el Departamento de Lengua Española de la UNED (Olabe et al. 1984), el desarrollado en la ET de Ingenieros de Telecomunicación de la Salle de Barcelona (Martí y Niñerola, 1987) , la versión española del sistema Infovox basado en los trabajos del KTH de Estocolmo (Carlson y Granström 1990), la versión española del sistema Multivox del Instituto de Lingüística de la Academia Húngara de Ciencias (Olaszy, 1980) y los recientemente desarrollados en el Departamento de Lenguajes y Sistemas Informáticos de la Universidad Politécnica de Valencia (Pérez y Vidal, 1991) y por la empresa belga Lernout & Hauspie (Conejo y van Coile, 1991); Vieregge et al. (1987) y Gerwen et al. (1989) mencionan un sistema para el español creado en la Universidad Católica de Nimega.

(5) Véase para una panorámica general van Bezooijen y Pols (1990), Pisoni et al. (1985) y Pols (1989).

Compartir en:

compartir FaceBook

Síguenos en: Síguenos en Twiter | Síguenos en Facebook | Instagram | pinterest

Enlaces rápidos a temas de interés

BOLETÍN

RSS | XHTML | CSS
Mapa Web | Registro | Contacta
© Majo Producciones 2001-2021 - Prohibida la reproducción parcial o total de la información mostrada