Puede estar seguro de que un problema se ha resuelto casi por completo cuando los investigadores comienzan a trabajar en cuestiones periféricas. Eso es lo que ha estado sucediendo en las áreas de reconocimiento automático de voz y síntesis de voz en los últimos años, donde los avances en inteligencia synthetic (IA) casi han perfeccionado estas herramientas. La próxima frontera, según un equipo del CSAIL del MIT, es imitar sonidos, de forma muy parecida a como los humanos copian el canto de un pájaro o el ladrido de un perro.
Imitar sonidos con nuestra voz es una forma intuitiva y práctica de transmitir concepts cuando las palabras se quedan cortas. Esta práctica, comparable a dibujar una imagen rápida para ilustrar un concepto, utiliza el tracto vocal para imitar sonidos que desafían toda explicación. Inspirados por esta habilidad pure, los investigadores han creado un sistema de inteligencia synthetic que puede producir imitaciones vocales similares a las humanas sin entrenamiento previo ni exposición a impresiones vocales humanas.
Un esquema del modelo del tracto vocal (📷: M. Caren et al.)
Este puede parecer un tema tonto o sin importancia a primera vista, pero cuanto más lo consideramos, más claro se vuelve el poder de la imitación del sonido. Si todo lo que hay debajo del capó de su automóvil es un misterio para usted, ¿cómo le explica un problema a un mecánico por teléfono? Las palabras no ayudarán cuando no sepas qué palabras usar, pero una serie de estallidos, explosiones y clics pueden decirle mucho a un mecánico. Y si queremos tener conversaciones similares con herramientas de inteligencia synthetic en el futuro, necesitarán entender cómo imitar e interpretar este tipo de reproducciones de sonido imperfectas que hacemos.
El sistema desarrollado por el equipo funciona modelando el tracto vocal humano, simulando cómo la laringe, la garganta, la lengua y los labios dan forma a los sonidos. Un algoritmo de IA inspirado en la ciencia cognitiva controla este modelo, produciendo imitaciones que reflejan las formas en que los humanos adaptan los sonidos para comunicarse. La IA puede replicar diversos sonidos del mundo actual, desde el susurro de hojas hasta la sirena de una ambulancia, e incluso puede funcionar a la inversa: interpretar imitaciones vocales humanas para identificar los sonidos originales, como distinguir entre el maullido y el silbido de un gato.
Para alcanzar este objetivo, los investigadores desarrollaron tres versiones progresivamente avanzadas del modelo. El primero tenía como objetivo replicar sonidos del mundo actual, pero no se alineaba bien con el comportamiento humano. El segundo modelo, “comunicativo”, se centró en las características distintivas de los sonidos, priorizando las características que los oyentes encontrarían más reconocibles, como imitar el ruido de una lancha a motor en lugar de las salpicaduras de agua. La tercera versión añadió una capa de razonamiento basado en el esfuerzo, evitando sonidos demasiado rápidos, fuertes o extremos, lo que dio como resultado imitaciones más parecidas a las humanas que reflejaban fielmente la toma de decisiones humana durante la mímica vocal.
Una serie de experimentos revelaron que los jueces humanos favorecían las imitaciones generadas por la IA en muchos casos, y hasta el 75 por ciento de los participantes preferían los sonidos artificiales. Dado este éxito, los investigadores esperan que el modelo pueda permitir a futuros diseñadores de sonido, músicos y cineastas interactuar con sistemas computacionales de manera creativa, como buscar en bases de datos de sonido mediante imitación vocal. También puede profundizar la comprensión del desarrollo del lenguaje, los comportamientos de imitación en los animales y cómo los humanos abstraen los sonidos.
Sin embargo, el modelo precise tiene limitaciones. Tiene dificultades con ciertas consonantes como la “z” y aún no puede replicar el habla, la música o imitaciones culturalmente específicas. Pero a pesar de estos desafíos, este trabajo es un paso importante hacia la comprensión de cómo los factores físicos y sociales dan forma a las imitaciones vocales y la evolución del lenguaje. Podría sentar las bases tanto para aplicaciones prácticas como para conocimientos más profundos sobre la comunicación humana.