Cuando escuchamos cualquier tipo de sonido, ya sea como el silbato de un tren, las ondas sonoras llegan a nuestros oídos derecho e izquierdo en momentos e intensidades ligeramente diferentes, dependiendo de la dirección de la que proviene el sonido. Las partes del mesencéfalo están especializadas para comparar estas ligeras diferencias para ayudar a estimar de qué dirección proviene el sonido, una tarea también conocida como localización.
Hoy, este complejo proceso ya lo puede ejecutar una IA. Los neurocientíficos del MIT ahora han desarrollado un modelo informático que también puede realizar esa compleja tarea. El modelo, que consiste en varias redes neuronales convolucionales, no solo realiza la tarea tan bien como lo hacen los humanos, sino que también lucha de la misma manera que los humanos.
-¿De dónde viene ese sonido? Una IA ya puede responderlo
“Ahora tenemos un modelo que realmente puede localizar sonidos en el mundo real”, dice Josh McDermott, profesor asociado de ciencias cerebrales y cognitivas y miembro del Instituto McGovern para la Investigación del Cerebro del MIT. “Y cuando tratamos el modelo como un participante experimental humano y simulamos este gran conjunto de experimentos en los que la gente había probado a los humanos en el pasado, lo que encontramos una y otra vez es que el modelo recapitula los resultados que se ven en los humanos”, añadió el investigador en conversación con su casa de estudios.
Los hallazgos del nuevo estudio también sugieren que la capacidad de los humanos para percibir la ubicación se adapta a los desafíos específicos de nuestro entorno, dice McDermott, quien también es miembro del Centro de Cerebros, Mentes y Máquinas del MIT.
Para desarrollar un modelo más sofisticado de localización, el equipo del MIT recurrió a las redes neuronales convolucionales. Este tipo de modelado por computadora se ha utilizado ampliamente para modelar el sistema visual humano, y más recientemente, McDermott y otros científicos también han comenzado a aplicarlo a la audición.
Las redes neuronales convolucionales se pueden diseñar con muchas arquitecturas diferentes, por lo que para ayudarlas a encontrar las que funcionarían mejor para la localización, el equipo del MIT utilizó una supercomputadora que les permitió entrenar y probar alrededor de 1.500 modelos diferentes. Esa búsqueda identificó 10 que parecían los más adecuados para la localización, que los investigadores entrenaron y utilizaron para todos sus estudios posteriores.
Para entrenar los modelos, los investigadores crearon un mundo virtual en el que pueden controlar el tamaño de la habitación y las propiedades de reflexión de las paredes de la habitación. Todos los sonidos alimentados a los modelos se originaron en algún lugar de una de estas salas virtuales. El conjunto de más de 400 sonidos de entrenamiento incluyó voces humanas, sonidos de animales, sonidos de máquinas como motores de automóviles y sonidos naturales como truenos.
Los investigadores también se aseguraron de que el modelo comenzara con la misma información proporcionada por los oídos humanos. El oído externo, o pabellón auricular, tiene muchos pliegues que reflejan el sonido, alterando las frecuencias que entran en el oído, y estos reflejos varían dependiendo de dónde proviene el sonido. Los investigadores simularon este efecto ejecutando cada sonido a través de una función matemática especializada antes de que entrara en el modelo de computadora. “Esto nos permite dar al modelo el mismo tipo de información que una persona tendría”, dice Andrew Francl, autor principal del estudio.
Después de entrenar los modelos, los investigadores los probaron en un entorno del mundo real. Colocaron un maniquí con micrófonos en sus oídos en una habitación real y reprodujeron sonidos de diferentes direcciones, luego alimentaron esas grabaciones en los modelos. Los modelos se desempeñaron de manera muy similar a los humanos cuando se les pidió que localizaran estos sonidos, estos detalles de los hallazgos de esta investigación fueron publicados en Nature Human Behaviour