Un sistema de cámara inteligente desarrollado por investigadores de la Universidad Carnegie Mellon puede ver las vibraciones del sonido con tanta precisión y detalle que puede reconstruir la música de un solo instrumento en una banda u orquesta. Se trata de un «micrófono» de alta precisión basado en visión artificial.
Incluso los micrófonos dirigidos y de mayor potencia no pueden eliminar los sonidos cercanos, el ruido ambiental y el efecto de la acústica cuando capturan audio. El novedoso sistema desarrollado en el Instituto de Robótica (RI) de la Facultad de Ciencias de la Computación utiliza dos cámaras y un láser para detectar vibraciones superficiales de baja amplitud y alta velocidad.
Estas vibraciones se pueden utilizar para reconstruir el sonido, capturando audio aislado sin inferencia ni micrófono.
«Hemos inventado una nueva forma de ver el sonido«, dijo Mark Sheinin , investigador asociado postdoctoral en el Laboratorio de Imágenes e Iluminación (ILIM) en RI. «Es un nuevo tipo de sistema de cámara, un nuevo dispositivo de imágenes, que puede ver algo invisible a simple vista».

Mark Sheinin (izquierda) y Dorian Chan formaron parte de un equipo de investigación de CMU que desarrolló un sistema de cámara que puede ver las vibraciones del sonido con tanta precisión que puede capturar audio aislado de guitarras separadas tocando al mismo tiempo. Crédito: Universidad Carnegie Mellon.
Capturando audio a partir de una imagen
El equipo completó varias demostraciones exitosas de la efectividad de su sistema para detectar vibraciones y la calidad de la reconstrucción del sonido. Capturaron audio aislado de guitarras separadas tocando al mismo tiempo y altavoces individuales tocando música diferente simultáneamente. Analizaron las vibraciones de un diapasón y usaron las vibraciones de una bolsa de Doritos cerca de un parlante para capturar el sonido proveniente de un parlante. Esta demostración rinde homenaje al trabajo anterior realizado por investigadores del MIT que desarrollaron uno de los primeros micrófonos visuales en 2014.
Cámaras normales convertidas en micrófonos ópticos
El sistema CMU mejora drásticamente los intentos anteriores de capturar sonido usando visión por computadora. El trabajo del equipo utiliza cámaras ordinarias que cuestan una fracción de las versiones de alta velocidad empleadas en investigaciones anteriores mientras producen una grabación de mayor calidad. El sistema de doble cámara puede capturar vibraciones de objetos en movimiento, como los movimientos de una guitarra mientras un músico la toca, y simultáneamente detectar sonidos individuales desde múltiples puntos.
«Hemos hecho que el micrófono óptico sea mucho más práctico y utilizable», dijo Srinivasa Narasimhan , profesor de RI y director de ILIM. «Hemos mejorado la calidad al mismo tiempo que redujimos los costos».
El sistema funciona analizando las diferencias en los patrones de motas de las imágenes capturadas con un obturador rodante y un obturador global. Un algoritmo calcula la diferencia en los patrones de motas de los dos flujos de video y convierte esas diferencias en vibraciones para reconstruir el sonido.
Un patrón de motas se refiere a la forma en que la luz coherente se comporta en el espacio después de que se refleja en una superficie rugosa.
El equipo crea el patrón de motas apuntando un láser a la superficie del objeto que produce las vibraciones, como el cuerpo de una guitarra. Ese patrón de motas cambia a medida que la superficie vibra. Un obturador rodante captura una imagen al escanearla rápidamente, generalmente de arriba a abajo, produciendo la imagen apilando una fila de píxeles encima de otra. Un obturador global captura una imagen en una sola instancia a la vez.
La investigación, » Dual-Shutter Optical Vibration Sensing «, recibió una mención de honor en el premio al Mejor Artículo en la Conferencia IEEE/CVF de 2022 sobre Visión por Computadora y Reconocimiento de Patrones (CVPR) en Nueva Orleans. Junto a Sheinin y Narasimhan en la investigación estuvieron Dorian Chan , Ph.D. estudiante de ciencias de la computación, y Matthew O’Toole , profesor asistente en el Departamento de Ciencias de la Computación e RI.
CVPR es la principal conferencia sobre visión artificial
La conferencia tuvo un récord de 8.161 trabajos presentados y aceptó alrededor de una cuarta parte de ellos. De ellos, solo 34 fueron preseleccionados para los premios al mejor artículo.
«Este sistema supera los límites de lo que se puede hacer con la visión por computadora», dijo O’Toole. «Este es un nuevo mecanismo para capturar vibraciones diminutas y de alta velocidad, y presenta una nueva área de investigación».
La mayor parte del trabajo en visión por computadora se enfoca en sistemas de entrenamiento para reconocer objetos o rastrearlos a través del espacio, investigación importante para el avance de tecnologías como los vehículos autónomos. Que este trabajo permita a los sistemas ver mejor las vibraciones imperceptibles de alta frecuencia abre nuevas aplicaciones para la visión artificial.
Aplicaciones industriales de la cámara capturadora de sonido
El sistema de detección de vibraciones ópticas de doble obturador del equipo podría permitir a los ingenieros de sonido monitorear la música de los instrumentos individuales sin la interferencia del resto del conjunto para afinar la mezcla general. Un dispositivo como este también sería de utilidad en la Industria 4.0. Los fabricantes podrían usar el sistema para monitorear las vibraciones de máquinas individuales en el piso de una fábrica para detectar signos tempranos de mantenimiento necesario.
«Si su automóvil comienza a hacer un sonido extraño, sabe que es hora de que lo revisen», dijo Sheinin. «Ahora imagine una fábrica llena de máquinas. Nuestro sistema le permite monitorear la salud de cada una al detectar sus vibraciones con una sola cámara estacionaria».
Más información sobre la investigación, incluido un enlace al artículo y figuras que reproducen sonidos reconstruidos por el sistema, está disponible en el sitio web de CMU Imaging .
Fuente: Carnegie Mellon University
Otras noticias sobre visión artificial y sonido
- Robot aprende a combinar visión y tacto
- Robot autónomo interactúa con lenguaje natural y visión
- Cámaras con visión profunda e hiperespectral
- Sistemas de Voz artificial y emulación de la personalidad
- Semáforos autónomos para la Smart City
- Garantizar la privacidad de asistentes de voz en hogares inteligentes
- Ojo Biónico mejorado con modelo informático
- Reconocimiento facial contra vídeos Deep Fake
- Algoritmo que mejora la compresión de imágenes y vídeo
- Collar inteligente con reconocimiento de voz silenciosa
- Tecnologías de voz para comercio electrónico
- Conversión de texto a voz con aprendizaje automático
- La domótica impulsa mejorar los comandos de voz
- Controlar el smartphone con la mirada y pequeños gestos