DISEÑO DE PROTOTIPO PARA MEJORAR LA DICCIÓN MEDIANTE EL USO DE MODELOS OCULTOS DE MARKOV

Ángel David Pedroza Ramírez, José Ismael De la Rosa Vargas, Ernesto García Domínguez, Hamurabi Gamboa Rosales, Aldonso Becerra Sánchez

Resumen


La comunicación oral en el ser humano es muy importante, sin embargo, la buena comunicación, independientemente del idioma, debe ser clara, objetiva y expresiva con el fin de que lo que se quiere expresar sea lo que el oyente entienda. El reconocimiento de voz, por otro lado, se basa en el estudio sobre el proceso del habla y la comunicación, y la forma en que este conocimiento puede ser aplicado como herramienta para diversas finalidades. El enfoque de esta investigación es el desarrollo de un prototipo didáctico para realizar pruebas de dicción en el idioma español. Para ello, se utilizaron 3 técnicas basadas en Modelos Ocultos de Markov (HMM) las cuales son Modelos Ocultos de Markov con DTW (MDTW), Modelos Ocultos de Markov con DTW aproximado por izquierda y derecha (MID) y Modelos Ocultos de Markov con relleno de palabras (MRP). Con esta estructura se logró distinguir entre calidades de dicción y con una eficiencia de reconocimiento por encima del 90 % para cualquiera de las técnicas utilizadas. Finalmente, con base en lo anterior, se programó una interfaz en Matlab la cual brinda resultados para la corrección de la dicción.


Texto completo:

1020-1038 PDF

Referencias


A. Pedroza, J. de la Rosa, “El invisible y asombroso proceso de la comunicación oral: bases sobre reconocimiento de voz”. Pistas Educativas. No. 112. Noviembre 2015. Pp. 1310-1330.

B. Plínio, "On the Defense of von Kempelen as the Predecessor of Experimental Phonetics and Speech Synthesis Research". The Ninth International Conference on the History of the Language Sciences. 2007. Pp. 101-106.

E. David, O. Selfridge, "Eyes and Ears for Computers". Proceedings of the IEEE. Vol.50. Mayo 1962. Pp. 1093-1101.

B. Gold, N. Morgan, D. Ellis, Speech and audio signal processing: Processing and Perception of Speech and Music. 2da. Edición. 2011. Editorial WILE. 688 páginas.

C. Seelbach, “A perspective on early commercial applications of voice-processing technology for telecommunications and aids for handicapped". Human-Machine Communication by Voice. 1993. Pp. 9989-9990.

C. Caballero, Cómo educar la voz hablada y cantada. 8va. Edición. 1994. Editorial EDAMEX. 257 páginas.

L. Beltrán, Simulación de modelos ocultos de Markov aplicados al reconocimiento de palabras aisladas, utilizando el programa Matlab. Tesis de Licenciatura. Escuela Politécnica Nacional: Escuela de Ingeniería. Quito. 2003.

L. Rabiner, “A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”. Proceedings of the IEEE. Vol. 77. No. 2. Febrero de 1989. Pp. 257-286.

H. Silva, Reconocimiento Automático de locutor y realización de un sistema experimental. Tesis de Maestría. Centro de Investigación Científica y de Educación Superior de Ensenada. 1994.

S. Prasad, T. Kishore, "Hybrid HMM/DTW based Speech Recognition with Kernel Adaptive Filtering Method”. International Journal on Computational Sciences & Applications (IJCSA). Vol.1. No.4. Febrero de 2014. Pp. 11-21.

Reconocimiento de voz para la aplicación en domótica. Universidad Tecnológica Nacional: Facultad Regional San Nicolás. 2008.

CRIBEO. http://www.cribeo.com/ocio y cultura/1004/"las-10-palabras-mas-del-espanol. Junio de 2014.

K. Murphy, Hidden Markov Model (HMM) Toolbox for Matlab [Algoritmo Computacional]. http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html. Mayo de 2015.






URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Licencia Creative Commons    Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.    

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas