ANÁLISIS DE CARACTERÍSTICAS EN HERRAMIENTAS INTELIGENTES PARA RECONOCIMIENTO DE VOZ (SELECTION OF A SPEECH RECOGNITION TOOL BY ANALYZING ITS FEATURES)

Salvador M. Malagón Soldara, Daniela E. Campos Camacho, Cesar A. Molina Guzman, Jorge L. Torres Ramirez, Jose L. Hurtado Chavez

Resumen


Resumen: En el presente trabajo se describe una investigación para lograr la selección de una librería con detección de voz. La aplicación de esta librería será el emitir comandos para un asistente inteligente de domótica. Donde, los actuadores a utilizar serán una bomba de agua, un foco led, una cortina automática y el cerrojo de una puerta. Por lo tanto, para evitar la programación de un algoritmo detector de palabras, se analizaron las siguientes cinco opciones. En primer lugar, se probó la librería Intelligent Voice Assistant de Python, la cual es un asistente pre-entrenado, capaz de ofrecer respuestas a comandos de voz. En segundo lugar, se utilizó Flask Assistant de Google, el cual fue concebido para el desarrollo de aplicaciones web bajo el patrón MVC (modelo-vista-controlador). En tercer lugar, se utilizó la librería Speech Recognition de Python, la cual es una librería basada en redes neuronales que puede reconocer las palabras escuchadas por un micrófono. En cuarto lugar, se analizó Google Assistant Flask, el cual es un chatbot basado en Dialogflow que trabaja sobre el lenguaje Python. En quinto y último lugar, se tiene la librería Python Speech Recognition la cual es una librería para reconocimiento de voz. De esta manera, la selección del asistente se realizó por medio de cuatro criterios: dificultad de uso, documentación online, soporte al usuario y un uso offline. Para finalizar, basados en estos criterios se eligió Speech Recognition y se expone un ejemplo.

Palabras clave: reconocimiento de voz, inteligencia artificial, domótica.

Abstract: This paper describes an investigation to achieve the selection of a library with voice detection. Where, the application of this library will be to emit commands for an intelligent home automation assistant. Therefore, in order to avoid programming a word-detecting algorithm, the following five options were analyzed. First, the Neural Intents library was tested in conjunction with the Python speech recognition library, which together provide the ability to both provide responses to voice commands and detect user moods and intentions. Secondly, the PyTorch library was used, which was used to train the speech recognition of commands using neural networks. Thirdly, Google's Text To Speech library was used, which is a library that not only allows us to have a speech recognition method, but also enables the intelligent assistant to speak. In fourth place, Google Assistant Flask was analyzed, which is a chatbot based on Dialogflow that works on the Python language. In fifth and last place, we have the Python Speech Recognition library, which is a library for speech recognition. Thus, the selection of the assistant was based on four criteria: difficulty of use, online documentation, user support and offline use. Finally, based on these criteria, Speech Recognition was chosen, and an example is presented.
Keywords: voice recognition, artificial intelligence, home automation.

Texto completo:

15-25 PDF

Referencias


Amos, D. (2016). The ultimate guide to speech recognition with python. Real Python.

Buse, R. P., & Weimer, W. (2012, June). Synthesizing API usage examples. In 2012 34th International Conference on Software Engineering (ICSE) (pp. 782-792). IEEE.

Imambi, S., Prakash, K. B., & Kanagachidambaresan, G. R. (2021). PyTorch. Programming with TensorFlow: Solution for Edge Computing Applications, 87-104.

Karumuri, H., Kimche, L., Toker, O., & Doryab, A. (2022, April). Context-Aware Recommendation Via Interactive Conversational Agents: A Case in Business Analytics. In 2022 Systems and Information Engineering Design Symposium (SIEDS) (pp. 375-380). IEEE.

Ketkar, N., Moolayil, J., Ketkar, N., & Moolayil, J. (2021). Introduction to pytorch. Deep Learning with Python: Learn Best Practices of Deep Learning Models with PyTorch, 27-91.

Relan, K., & Relan, K. (2019). Beginning with flask. Building REST APIs with Flask: Create Python Web Services with MySQL, 1-26.

Ríos, J. R. M., Mora, N. M. L., Ordóñez, M. P. Z., & Sojos, E. L. L. (2016). Evaluación de los Frameworks en el Desarrollo de Aplicaciones Web con Python. Archivo de la revista Latinoamericana de Ingeniería de Software, 4(4), 201-207.

Rithika, H., & Santhoshi, B. N. (2016, December). Image text to speech conversion in the desired language by translating with Raspberry Pi. In 2016 IEEE International Conference on Computational Intelligence and Computing Research (ICCIC) (pp. 1-4). IEEE.

Sabharwal, N., Agrawal, A., Sabharwal, N., & Agrawal, A. (2020). Introduction to Google dialogflow. Cognitive virtual assistants using google dialogflow: develop complex cognitive bots using the google dialogflow platform, 13-54.

Salvi, S., Geetha, V., & Kamath, S. S. (2019, October). Jamura: a conversational smart home assistant built on Telegram and Google Dialogflow. In TENCON 2019-2019 IEEE Region 10 Conference (TENCON) (pp. 1564-1571). IEEE.

Torres, J. (2020). Python deep learning: Introducción práctica con Keras y TensorFlow 2. Alpha Editorial.






URL de la licencia: https://creativecommons.org/licenses/by/3.0/deed.es

Barra de separación

Licencia Creative Commons    Pistas Educativas está bajo la Licencia Creative Commons Atribución 3.0 No portada.    

TECNOLÓGICO NACIONAL DE MÉXICO / INSTITUTO TECNOLÓGICO DE CELAYA

Antonio García Cubas Pte #600 esq. Av. Tecnológico, Celaya, Gto. México

Tel. 461 61 17575 Ext 5450 y 5146

pistaseducativas@itcelaya.edu.mx

http://pistaseducativas.celaya.tecnm.mx/index.php/pistas