Información

Los investigadores buscan en el cerebro algoritmos para el problema del cóctel

Los investigadores buscan en el cerebro algoritmos para el problema del cóctel


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

La capacidad de una computadora para reconocer algunas señales ocultas en una masa de datos ruidosos pero no otras es un problema bien conocido y actualmente intratable para los científicos informáticos que trabajan en el campo del procesamiento del lenguaje y el sonido. Conocido como el problema de los cócteles, los algoritmos que pueden identificar una voz específica y amplificarla mientras amortiguan la cacofonía de otras voces, ruidos y distorsiones producidas por el entorno han sido esquivos hasta la fecha.

RELACIONADO: ESTE DISPOSITIVO CEREBRAL-COMPUTADORA DA VOZ A AQUELLOS QUE NO PUEDEN HABLAR

Afortunadamente, los científicos tienen un sistema que modelar para ayudarlos a resolver este problema: el cerebro humano. Los seres humanos son animales sociales y, como tales, nuestros cerebros han evolucionado mucho para aislar y concentrarse en la voz de la persona con la que estamos hablando, amortiguando y, a menudo, incluso suprimiendo por completo otras voces y el ruido ambiental para escuchar lo que una persona está diciendo. Ahora, los investigadores están comenzando a hacer un progreso significativo en la comprensión de cómo el cerebro aísla y procesa una voz específica entre muchos, así como en el desarrollo de nuevos enfoques para resolver el problema.

El efecto cóctel

El efecto cóctel, como se le conoce, es la capacidad del cerebro humano para concentrarse en una sola voz en una multitud y aislarla del ruido ambiental circundante. Si bien esto puede parecer bastante sencillo para algunos, es fácil dar por sentado el efecto cóctel y no apreciar lo extraordinario que es un proceso neurológico.

En una multitud, las voces son perturbaciones en el aire circundante que se golpean y se dispersan entre sí, lo que dificulta escuchar la voz de alguien a menos que simplemente domine a todos los demás gritando o algo similar. Dado que esa no es una solución ideal para el problema de los cócteles, nuestro cerebro hace otra cosa que es bastante extraordinaria.

En fracciones de segundo, nuestro cerebro identifica y aísla la señal de voz de la persona que queremos escuchar y la amplifica. Luego, filtra o enmascara todas las demás señales de voz o ruido para que estos sonidos se supriman, lo que nos permite escuchar lo que una persona está diciendo en la mayoría de las circunstancias sociales.

Todos los días, nuestro cerebro procesa una infinidad de sonidos que prioriza en fracciones de segundo. Y así como están eliminando continuamente la imagen de esa parte de nuestra nariz que se extiende físicamente a nuestro campo de visión sin obstrucciones, nuestro cerebro amplifica los sonidos en los que nos estamos enfocando y suprime el otro ruido de menor prioridad en el entorno para que desaparecer funcionalmente.

Pero cómo exactamente nuestros cerebros logran este increíble efecto de cóctel fue un misterio durante décadas después de que los investigadores discutieran por primera vez el `` problema de los cócteles '' en la década de 1950. Afortunadamente, la investigación de los últimos años ha arrojado luz sobre cómo nuestros cerebros identifican y aíslan estas señales de voz tan importantes en entornos sociales, nos acercan mucho más que nunca a replicar el mismo proceso utilizando una máquina.

Segregación de diferentes señales de voz en la corteza auditiva.

los la última década ha visto mejoras importantes en nuestra comprensión de cómo los humanos identifican y procesan el habla y el lenguaje. Un par de investigadores apoyados por el Instituto Nacional de Sordera y Otros Trastornos de la Comunicación de EE. UU. Publicaron un artículo notable en la revista. Naturaleza en 2012 eso mostró cómo no solo podíamos ver cómo el cerebro estaba filtrando y distinguiendo entre las señales de voz en competencia, sino que los investigadores incluso pudieron predecir qué palabra estaba escuchando el encuestado.

Edward Chang, Ph.D., neurocirujano y profesor asociado de la Universidad de California en San Francisco (UCSF) inicialmente no buscaba identificar cómo los humanos lograban el efecto cóctel; estaba tratando a pacientes con epilepsia. Él implantó una hoja de 256 electrodos justo debajo del cráneo de sus pacientes para monitorear la actividad eléctrica en la capa externa de neuronas de sus lóbulos temporales.

Chang y Nima Mesgarani, Ph.D., becario postdoctoral en UCSF, se dieron cuenta de que estos pacientes les presentaban una oportunidad única. Con su sofisticado equipo, que era lo suficientemente sensible como para detectar el disparo de una sola neurona, y el hecho de que los electrodos intracraneales también podrían monitorear la corteza auditiva, que se encuentra en el lóbulo temporal, podrían estudiar cómo el cerebro procesa el sonido con un detalle sin precedentes.

Tres sujetos voluntarios escucharon grabaciones de audio simultáneas, una leída por una mujer y la otra por un hombre, con instrucciones para escuchar una de las dos palabras objetivo específicas que comenzarían la muestra de audio, luego reportarían cuál era la voz en el audio. sample dijo después de esas palabras. Al analizar las lecturas de los electrodos utilizando un algoritmo de decodificación que podría identificar patrones y reconstruir lo que el sujeto escuchó, los investigadores encontraron que las lecturas de los electrodos solo recogieron el patrón del hablante objetivo, lo que significa que la corteza auditiva ignora el no- hablante de destino por completo.

"Mucha gente pensó que la corteza auditiva simplemente estaba pasando esta información a la parte cognitiva del cerebro, la corteza frontal y las áreas de control ejecutivo, donde realmente sería procesada", dijo Chang. "Lo que encontramos fue que la corteza auditiva es en sí misma bastante sofisticada. Es como si supiera qué sonidos deben agruparse y solo extrae los que son relevantes para el único hablante ".

Aún más notable es el hecho de que el algoritmo de decodificación fue capaz de predecir qué hablante estaba escuchando el sujeto basándose solo en la actividad neuronal y que pudo detectar el momento en que la atención del sujeto se desvió o se desvió hacia el otro hablante. Lo que esto nos dice es que la corteza auditiva tiene la clave para comprender cómo el cerebro humano puede lidiar con el problema del cóctel de una manera que las computadoras actualmente no pueden.

Diferenciar la voz del sonido

Si bien una computadora puede decodificar la actividad neuronal del cerebro y saber exactamente lo que realmente escuchó la corteza auditiva, eso no es suficiente para superar el problema del cóctel por sí solo; todavía necesitamos saber cómo es que el cerebro realmente hace estas distinciones y diferencia las señales de voz y otros ruidos ambientales para enfocarse en la voz objetivo.

Investigadores de la Universidad de Ginebra, Suiza (UNIGE) y la Universidad de Maastricht en los Países Bajos publicaron un artículo este verano en la revista Comportamiento humano de la naturaleza que intentó llegar a la raíz del mecanismo de este proceso, es decir, cómo el cerebro procesa las voces que escuchamos y las palabras que se pronuncian.

Para hacer esto, los investigadores diseñaron una colección de pseudopalabras, palabras que no tienen significado, pronunciadas por un fonético capacitado en tres tonos diferentes. Luego se pidió a los sujetos que escuchaban las muestras de voz que realizaran las tareas auditivas específicas de diferenciar entre diferentes tonos de la misma voz o que escucharan los propios sonidos del habla, conocidos como fonemas.

"Creamos 120 pseudopalabras que cumplen con la fonología de la lengua francesa pero que no tienen sentido, para asegurarnos de que el procesamiento semántico no interfiera con la percepción pura de los fonemas", dijo Narly Golestani, profesor de la Sección de Psicología de la UNIGE. Facultad de Psicología y Ciencias de la Educación (FPES) y coautor del artículo.

Sanne Rutten, investigadora de la FPES de UNIGE y coautora del artículo, dijo que la tarea de diferenciar las voces del hablante debía ser lo más difícil posible para el sujeto con el fin de estudiar con precisión la forma en que el cerebro realiza esta audición. Procesando. "Para hacer la diferenciación de las voces tan difícil como la diferenciación de los sonidos del habla, creamos la percepción de tres voces diferentes a partir de los estímulos grabados, en lugar de grabar a tres personas diferentes".

Antes de la prueba, los investigadores analizaron las diferencias en los parámetros acústicos entre los sonidos de voz y los sonidos de fonemas, como la frecuencia, ya sea alta o baja, la modulación temporal, la velocidad percibida del sonido hablado, y la modulación espectral, la forma en que se distribuye la energía sonora en las distintas frecuencias. Se determinó que las modulaciones espectrales altas eran más útiles para diferenciar las diferentes muestras de voz, y que las modulaciones espectrales bajas junto con una modulación temporal rápida eran más útiles para identificar diferencias en los fonemas.

Durante la prueba en sí, se pidió a los sujetos que identificaran tres sonidos específicos del habla - / p /, / t / o / k /, como en las pseudopalabras preperibion, gabratade y ecalimacre - o que identificaran si la muestra había sido hablada por voz uno, dos o tres. Durante la prueba, sus cerebros fueron escaneados por una máquina de imágenes de resonancia magnética funcional (fMRI) para monitorear la oxigenación de la sangre del cerebro, una forma altamente efectiva de identificar qué partes del cerebro estaban más activas, ya que más actividad requiere más oxígeno que menos activa. regiones del cerebro.

Mediante el uso de un modelo de computadora para analizar los resultados de la resonancia magnética funcional, los investigadores encontraron que la corteza auditiva amplificaba las modulaciones espectrales más altas cuando se le asignó la tarea de diferenciar voces y cuando se le pidió que identificara los fonemas específicos en las muestras, se centró en el tiempo más rápido modulaciones y modulaciones espectrales más bajas sobre otros estímulos.

"Los resultados muestran grandes similitudes entre la información de la tarea en los propios sonidos y los datos neuronales, fMRI", dijo Golestani.

Esto demuestra que la corteza auditiva procesa el mismo sonido de manera diferente según la tarea específica que está tratando de realizar, revelando la mecánica esencial involucrada en cómo escuchamos a las personas que nos hablan y cómo nuestro cerebro distingue entre diferentes voces. "Esta es la primera vez que se ha demostrado, en humanos y usando métodos no invasivos, que el cerebro se adapta a la tarea en cuestión de una manera que es consistente con la información acústica que se atiende en los sonidos del habla", dijo Rutten.

Resolviendo el problema del cóctel con algoritmos modelados en la corteza auditiva

A medida que crece nuestra comprensión de lo que sucede dentro de la corteza auditiva y descubrimos más sobre la mecánica del efecto cóctel, podemos utilizar estos nuevos conocimientos para mejorar la forma en que los sistemas informáticos procesan el sonido de la voz humana. Si bien los sistemas de procesamiento de lenguaje natural como la API de voz a texto de Google son ciertamente poderosos, sus mejores algoritmos para el problema del cóctel siguen siendo inadecuados. Pasarán al menos varios años antes de que la investigación neurológica sobre la corteza auditiva produzca el tipo de avances que nos permitan desarrollar los algoritmos adecuados para reproducir el efecto cóctel en las computadoras.

Hasta entonces, el tipo de interfaces de computadora controladas por voz como las que se ven en Star Trek permanecerán fuera de su alcance. Pero la investigación sobre la corteza auditiva es muy prometedora y los datos que hemos recopilado hasta ahora de los estudios neurológicos muestran que una mayor investigación de esta región del cerebro probablemente revelará una nueva mecánica neurológica que es esencial para desarrollar algoritmos eficientes para el cóctel. problema de fiesta.


Ver el vídeo: Sistemas Complejos: Cómo las neurociencias y la IA convergen a decisiones inteligentes (Julio 2022).


Comentarios:

  1. Garland

    Es notable, es una frase muy valiosa

  2. Meliodas

    Creo que permitirás el error. Escríbeme en PM, discutiremos.

  3. Travion

    Felicito, muy buena idea

  4. Philip

    Excusa, se limpia

  5. Yozshujar

    Hablaremos por esta pregunta.



Escribe un mensaje