El invisible y asombroso proceso de la comunicación oral: bases sobre reconocimiento de voz

Ángel David Pedroza Ramírez; José Ismael de la Rosa Vargas

El invisible y asombroso proceso de la comunicación oral: bases sobre reconocimiento de voz

Ángel David Pedroza Ramírez, José Ismael de la Rosa Vargas

Resumen

La comunicación, cuyo fin primario es la transmisión de información, forma parte fundamental de las necesidades básicas del ser humano. El proceso de la generación del habla y más aún el de la comunicación, es mucho más complejo de lo que se podría llegar a creer dado el nivel de coordinación que se requiere para producir, transmitir y decodificar un mensaje. El reconocimiento de voz se basa en el estudio sobre el proceso del habla y la comunicación, y la forma en que este conocimiento puede ser aplicado.
El presente documento resume y brinda una revisión sobre el estado del arte y las bases para entender el reconocimiento de voz desde el punto de vista fisiológico y como una rama de la ciencia ampliamente utilizada en la tecnología de uso cada vez más común hoy en día.

Palabra(s) Clave(s): comunicación hombre-máquina, comunicación oral, habla, voz.

Texto completo:

1310-1330 PDF

Referencias

B. Plínio, "On the Defense of von Kempelen as the Predecessor of Experimental Phonetics and Speech Synthesis Research". The Ninth International Conference on the History of the Language Sciences. 2007. 101-106 pp.

E. David, O. Selfridge, "Eyes and Ears for Computers". Proceedings of the IEEE. Vol.50. Mayo, 1962. 1093-1101 pp.

B. Gold, N. Morgan, D. Ellis, Speech and audio signal processing: Processing and Perception of Speech and Music. 2da Edición. 2011. Editorial WILE. 688 pp.

R. Esparza, " Cómo funciona Siri". Como funciona: Edición México. No. 4. 2014. 45 p.

C. Cristían, La voz hablada y cantada. 8va. Edición. 1994. Editorial EDAMEX. 257 pp.

G. de las Heras, L. Rodríguez, Materiales para cuidar mi voz. Fundación MAPFRE-UCLM. 44 pp.

H. Silva, Reconocimiento Automático de locutor y realización de un sistema experimental. Tesis de Maestría. Centro de Investigación Científica y de Educación Superior de Ensenada. 1994.

L. Beltrán, Simulación de modelos ocultos de Markov aplicados al reconocimiento de palabras aisladas, utilizando el programa Matlab. Tesis de Licenciatura. Escuela Politécnica Nacional: Escuela de Ingeniería. Quito. 2003.

J. Flores, Técnicas para el reconocimiento de voz en palabras aisladas en la lengua náhuatl, Tesis de Maestría. Centro de Investigación en Computación. México. D.F. 2009.

A. Ramírez, Reconocimiento automático del locutor mediante técnicas dependientes e independientes del vocabulario para un sistema acotado por el ancho de banda telefónico y realización de un sistema experimental. Tesis de Maestría. Centro de Investigación Científica y de Educación Superior de Ensenada. 1996.

L. Rabiner, B. Juang, Fundamentals of speech recognition. 1993. Editorial Prentice Hall. 507 pp.

A. Buzó, A. Gray, R. Gray, J. Markel, “Speech Coding Based Upon Vector Quantization”. IEEE Transactions on Acoustics, Speech, and Signal Processing. Vol. assp-28. No. 5. Octubre de 1980. 562-574 pp.

L. Rabiner, “A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”. Proceedings of the IEEE. Vol. 77. No. 2. Febrero de 1989. 257-286 pp.

S. Prasad, T. Kishore, "Hybrid HMM/DTW based Speech Recognition with Kernel Adaptive Filtering Method". International Journal on Computational Sciences & Applications. Vol.1. No.4. Febrero de 2014. 11-21 pp.

J. Varela, J. Loaiza, Reconocimiento de palabras aisladas mediante redes neuronales sobre FPGA. Tesis de licenciatura. Facultad de Ingenierías: Eléctrica, Electrónica, Física y de Sistemas. Universidad Tecnológica de Pereira. 2008.

S. Rascón, Reconocimiento de voz para un control de acceso mediante una red neuronal de retropropagación. Tesis de licenciatura. Escuela superior de ingeniería mecánica y eléctrica Unidad Culhuacan. México. D.F. 2009.

J. Pech, Desarrollo de un sistema de reconocimiento de voz para el control

de dispositivos utilizando mixturas gaussianas. Tesis de Maestría. Instituto Politécnico Nacional. Centro de Investigación en Computación. México. D.F.

J. Rodríguez, Sistema de reconocimiento del locutor basado en modelado no paramétrico. Tesis de Maestría. Instituto Politécnico Nacional. Escuela Superior de Ingeniería Mecánica y Eléctrica. México. D.F. 2008.

G. Pérez, Herramientas de Segmentación y Evaluación de Series Temporales Basadas en Modelos Ocultos de Markov. Tesis de Licenciatura. Universidad Carlos III de Madrid. España. Madrid. 2010.

J. Schmidhuber, "Deep learning in neural networks: An overview". Neural Networks. No. 61. Enero de 2015. 85-117 pp.

A. Abad et al., "Automatic word naming recognition for an on-line aphasia treatment system". Computer Speech and Language. No. 27. Septiembre de 2013. 1235-1248 pp.

A. Hussen, S. Zeiler, D. Kolossa, "Learning Dynamic Stream Weights For Coupled-HMM-Based Audio-Visual Speech Recognitio ". IEEE/ACM Transactions on Audio, Speech, and Language Processing. Vol. 23. No. 5. Mayo 2015. 863-876 pp.

P. Cardinal, P. Dumouchel, G. Boulianne, "Large Vocabulary Speech Recognition on Parallel Architectures". IEE Trasactions on audio, speech, and languaje processing. Vol.21. No. 11. Noviembre de 2013. 2290-2300 pp.

URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas

Nombre de usuario/a
Contraseña
No cerrar sesión