El software EyeMU que rastrea los ojos con precisión permite a los usuarios interactuar con las pantallas de un smartphone sin mover un dedo, combinando el predictor de mirada con los sensores de movimiento integrados en el teléfono inteligente. Se soluciona así el problema de los teléfonos difíciles de manejar cuando con frecuencia requieren una segunda mano o comandos de voz para funcionar, lo que puede ser engorroso e inconveniente. Además, representa una ayuda inestimable para quien se encuentra con algún tipo de impedimento para hacerlo.
Combinar la mirada con gestos simples para dar órdenes al smartphone
Los investigadores del Future Interfaces Group del Human-Computer Interaction Institute (HCII) de la Universidad Carnegie Mellon están desarrollando una herramienta llamada EyeMU , que permite a los usuarios ejecutar operaciones en un teléfono inteligente combinando el control de la mirada y gestos manuales simples.
«Hicimos la pregunta, ‘¿Existe un mecanismo más natural para interactuar con el teléfono?’ Y el precursor de mucho de lo que hacemos es mirar algo», dijo Karan Ahuja, estudiante de doctorado en interacción humano-computadora.
El análisis y la predicción de la mirada no son nuevos, pero lograr un nivel aceptable de funcionalidad en un teléfono inteligente sería un avance notable. «Los ojos tienen lo que llamarías el problema táctil de Midas», dijo Chris Harrison , profesor asociado en HCII y director del Future Interfaces Group. «No puedes tener una situación en la que algo suceda en el teléfono donde sea que mires…. Se abrirían demasiadas aplicaciones«.
El software que rastrea los ojos con precisión puede resolver el problema
Andy Kong, un estudiante de último año con especialización en informática, se había interesado en las tecnologías de seguimiento ocular desde que llegó por primera vez a CMU. Encontró que las versiones comerciales eran caras, por lo que escribió un programa que usaba la cámara integrada de una computadora portátil para rastrear los ojos del usuario, que a su vez movía el cursor por la pantalla, un importante paso inicial hacia EyeMU.
«Los teléfonos actuales solo responden cuando les pedimos cosas, ya sea con voz, toques o clics de botones», dijo Kong. «Si el teléfono se usa ampliamente ahora, imagine cuánto más útil sería si pudiéramos predecir lo que el usuario quería analizando la mirada u otros datos biométricos».
No fue fácil optimizar el paquete para que pudiera funcionar a gran velocidad en un teléfono inteligente. «Esa es una limitación de recursos. Debe asegurarse de que sus algoritmos sean lo suficientemente rápidos», dijo Ahuja. «Si tarda demasiado, tu ojo se moverá».
Kong, el autor principal del artículo, presentó los hallazgos del equipo con Ahuja, Harrison y el profesor asistente de HCII Mayank Goel en la Conferencia Internacional sobre Interacción Multimodal del año pasado. Tener un artículo revisado por pares aceptado en una conferencia importante fue un gran logro para Kong, un investigador de pregrado.
Kong y Ahuja avanzaron en ese prototipo inicial mediante el uso de la herramienta Face Mesh de Google para estudiar los patrones de mirada de los usuarios que miran diferentes áreas de la pantalla y representar los datos de mapeo. A continuación, el equipo desarrolló un predictor de mirada que utiliza la cámara frontal del teléfono inteligente para bloquear lo que el espectador está mirando y registrarlo como el objetivo.
El equipo hizo que la herramienta fuera más productiva al combinar el predictor de mirada con los sensores de movimiento integrados en el teléfono inteligente para habilitar los comandos.
Por ejemplo, un usuario podría mirar una notificación el tiempo suficiente para asegurarla como objetivo y mover el teléfono hacia la izquierda para descartarla o hacia la derecha para responder a la notificación. De manera similar, un usuario puede acercar el teléfono para ampliar una imagen o alejar el teléfono para desactivar el control de la mirada, todo mientras sostiene un café con leche grande en la otra mano.

Figura 2: Arquitectura de la estimación de la mirada de EyeMU. CC 4.0 Karan Ahuja et al.
«Las grandes empresas tecnológicas como Google y Apple se han acercado bastante a la predicción de la mirada, pero no basta con mirar fijamente algo», dijo Harrison. «La verdadera innovación en este proyecto es la adición de una segunda modalidad, como mover el teléfono hacia la izquierda o hacia la derecha, combinada con la predicción de la mirada. Eso es lo que lo hace poderoso. Parece tan obvio en retrospectiva, pero es una idea inteligente que hace que EyeMU mucho más intuitivo».
Más información: Andy Kong et al, EyeMU Interactions: Gaze + IMU Gestures on Mobile Devices, Proceedings of the 2021 International Conference on Multimodal Interaction (2021). DOI: 10.1145/3462244.3479938
Fuente: Universidad Carnegie Mellon
Las nuevas técnicas para el seguimiento de la mirada están cambiando la forma en que interactuamos con los dispositivos
Los ratones, y ahora las pantallas táctiles, se han convertido en una parte diaria de nuestras vidas en la forma en que interactuamos con los ordenadores. Pero, ¿qué pasa con las personas que carecen de la capacidad de usar un ratón o una pantalla táctil? ¿O situaciones en las que serían poco prácticos o totalmente peligrosos?
Muchos investigadores han explorado el seguimiento de la mirada ocular como un posible mecanismo de control. Estos mecanismos de seguimiento se han vuelto lo suficientemente sofisticados y pequeños como para que actualmente aparezcan en dispositivos como teléfonos inteligentes y tabletas.
Pero por sí solos, estos mecanismos pueden no ofrecer la precisión y la velocidad necesarias para realizar tareas informáticas complejas.
Por ejemplo, un equipo de investigadores del Departamento de Ingeniería de la Universidad de Cambridge desarrolló hace ya casi diez años una interfaz de control informático que utiliza una combinación de seguimiento de miradas oculares y otras entradas. La investigación del equipo se publicó en un artículo, «Multimodal Intelligent Eye-Gaze Tracking System», en el International Journal of Human-Computer Interaction. El Dr. Pradipta Biswas, investigador asociado sénior del Centro de Diseño de Ingeniería del Departamento, y su equipo proporcionaron dos mejoras importantes a un sistema independiente de seguimiento de la mirada. En primer lugar, un software sofisticado interpreta factores como la velocidad, la aceleración y el rodamiento para proporcionar una predicción del objetivo previsto del usuario. A continuación, se emplea un segundo modo de entrada, como un joystick.
El problema de selección
Un desafío que surge al diseñar un sistema de este tipo es que, una vez seleccionado el objetivo, ¿cómo indica el usuario un deseo de selección? En un ordenador personal típico, esto se logra con un clic del ratón; con un teléfono o una tableta, un toque en la pantalla.
Los sistemas básicos de seguimiento de la mirada a menudo utilizan una señal como parpadear los ojos para indicar esta elección. Sin embargo, parpadear no siempre es lo ideal. Por ejemplo, en situaciones de combate, los ojos de los pilotos podrían secarse, lo que impide su capacidad de parpadear en el momento adecuado.
El equipo de Pradipta experimentó con varias formas de resolver el problema de selección, incluida la manipulación de los ejes del joystick, la ampliación de los objetivos previstos y el uso de una palabra clave hablada como «fuego» para indicar un objetivo.
Como era de esperar, descubrieron que un ratón sigue siendo el método más rápido y menos estresante para seleccionar un objetivo, posiblemente ayudado por el hecho de que la mayoría de los usuarios de computadoras ya se sienten cómodos con esta técnica. Sin embargo, un enfoque multimodal que combine el seguimiento de la mirada ocular, el modelado predictivo y un joystick casi puede coincidir con un ratón en términos de precisión y carga cognitiva. Además, cuando se prueba a los principiantes en informática (sin experiencia en el uso de un ratón), con suficiente formación en el sistema, el enfoque multimodal inteligente puede ser más rápido.
La esperanza es que estas revelaciones conduzcan a sistemas que funcionen tan bien, o mejor, que un ratón. «Estoy muy entusiasmado con las perspectivas de esta investigación», dijo Pradipta. «Cuando hacer clic con el ratón no es posible para todos, necesitamos algo más que sea igual de bueno».
Junto con Pradipta, el equipo de investigación del Centro de Diseño de Ingeniería de Cambridge incluye al Dr. Pat Langdon y al Dr. Peter Thomas.
Fuente: Department of Engineering, Cambridge University CC 4.0: Gazing into the future
Otros artículos sobre Interfaces y Accesibilidad que te pueden interesar:
- Interfaces y Teclados de Realidad Virtual o Aumentada
- Interfaces táctiles curvas, de gran tamaño, en superficies difíciles y hasta en pantallas que no lo son
- Teclados textiles deformables para manejar interfaces weareables
- Collar inteligente con reconocimiento de voz silenciosa
- Interfaz cerebro-máquina para convertir pensamientos en acciones
- Paredes interactivas aplicando un spray
- La ‘Realidad Virtual Epidérmica’ da a la tecnología un toque humano
- Brazo háptico robótico Mantis
- Mano robótica inteligente y control del usuario
- Tecnologías de voz para comercio electrónico
- Guantes que traducen la lengua de signos a texto escrito
- Juguetes controlados por la mente