Análisis Acústico de Voz para la Identificación de Sexo y Categorización de Edad, en Múltiples Idiomas y Bajo Ambientes No Controlados

Diaz Ocampo, Enrique%919756

Ver Estadísticas

Tesis Validadas: 2,591

Tesis de Posgrado: 3,262

Visitas: 263

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM)

Tesis de Posgrado

Morelos

Centro Nacional de Investigación y Desarrollo Tecnológico

Tesis CENIDET

Tesis de Maestría

Tesis de Maestría en Computación

Por favor, use este identificador para citar o enlazar este ítem: https://rinacional.tecnm.mx/jspui/handle/TecNM/6665

Título :	Análisis Acústico de Voz para la Identificación de Sexo y Categorización de Edad, en Múltiples Idiomas y Bajo Ambientes No Controlados
Autor :	Diaz Ocampo, Enrique%919756
metadata.dc.subject.other:	Género, frecuencia fundamental, idiomas, sistema, redes neuronales.
Fecha de publicación :	2023-12-13
Editorial :	Tecnológico Nacional de México
metadata.dc.publisher.tecnm:	Centro Nacional de Investigación y Desarrollo Tecnológico
Descripción :	El reconocimiento de género (género binario o también conocido como sexo) por voz mediante algún sistema es una actividad diaria que se ejecuta en diversos asistentes personales: Siri, Alexa, Google, etc. Ha sido un problema estudiado principalmente con nativos del idioma inglés, lo cual ocasiona un sesgo cuando el hablante no es nativo o hablante de dicho idioma. Los sistemas propuestos para el reconocimiento de género, se enfocan en la implementación de características profundas, que requiere costo computacional y cuyos resultados solo son entendibles por una computadora, dificultando la interpretabilidad del sistema. En la investigación aquí reportada, se partió de que el reconocimiento de género por voz, puede abordarse mediante el estudio de características robustas extraíbles a partir de un audio que puedan reconocer el género a pesar de no hablar inglés. Se abordó el reconocimiento del género a partir de la voz, mediante características biológicas i.e. Frecuencia fundamental, Intensidad de la Voz, Longitud del Tracto vocal, y Coeficientes Cepstrales de Frecuencias de Mel, en los idiomas: inglés, francés, alemán, chino, español, y thai. El conjunto de datos de voces, se obtuvieron del conjunto de voces Mozilla Common Voice. Se implementaron un total de seis metodologías: tres para el reconocimiento de género, y tres para el reconocimiento de género y edad. Con éstas metodologías se obtuvieron valores de reconocimiento de género superiores al 90 %. Los hallazgos indican que los cuartiles de la Frecuencia fundamental, aunado a la estimación del tracto vocal, muestran robustez, cuando se intenta reconocer el idioma inglés y el español. Se concluye que el reconocimiento de género mediante la voz, es factible, sin la necesidad de emplear características de índole profundas, para ello se requiere el estudio estadístico de las características de cada idioma.
metadata.dc.type:	info:eu-repo/semantics/masterThesis
Aparece en las colecciones:	Tesis de Maestría en Computación

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
MC_Enrique_Diaz_Ocampo_2023.pdf	Tesis	2.57 MB	Adobe PDF	Visualizar/Abrir
MC_Enrique_Diaz_Ocampo_2023_c.pdf Restricted Access	Cesión de derechos	884.86 kB	Adobe PDF	Visualizar/Abrir Request a copy

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons

Ver Estadísticas

Tesis Validadas: 2,591

Tesis de Posgrado: 3,262

Visitas: 263

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM) Tesis de Posgrado Morelos Centro Nacional de Investigación y Desarrollo Tecnológico Tesis CENIDET Tesis de Maestría Tesis de Maestría en Computación

Repositorio Institucional del Tecnológico Nacional de México (RI - TecNM)

Tesis de Posgrado

Morelos

Centro Nacional de Investigación y Desarrollo Tecnológico

Tesis CENIDET

Tesis de Maestría

Tesis de Maestría en Computación