Sistemas basados en voz como Google Now y Siri son hackeables con sonidos inaudibles

0
161

Los sistemas de reconocimiento de voz más utilizados, entre ellos Google Now y Siri, pueden ser vulnerados con comandos inaudibles para el oído humano que permitirían -entre otras cosas- convertir a los dispositivos hackeados en equipos de espionaje, según demostró una investigación de una universidad China.

Disponibles en miles de dispositivos, desde smartphones a navegadores para automóviles o parlantes inteligentes para el control hogareño, los sistemas de reconocimiento de voz “incrementaron su popularidad como método de interacción humano-computadora” y, según demostraron seis científicos de la Universidad de Zhejiang, poseen “comandos ocultos pueden controlar el sistema”.

“Estos comandos de voz ocultos, son de todas maneras audibles. Pero en este trabajo, diseñamos un ataque completamente inaudible, (llamado) DolphinAttack, que modula los comandos de voz en ultrasonidos para hacerlos imperceptibles a la escucha humana”, sostiene el documento de 15 folios difundido el pasado jueves.

Estos ataques, con diversas variantes, demostraron ser efectivos en los asistentes inteligentes Siri, Google Now, Samsung S Voice, Huawei HiVoice, Cortana y Alexa, y lograron realizar desde inofensivas llamadas no deseadas hasta la conversión de los aparatos en verdaderos dispositivos espías.

“Un adversario puede hacer que el dispositivo víctima inicie llamadas de vídeo-teléfono salientes, por lo tanto, (grabar) imagen-sonido del entorno del dispositivo”, señala la investigación, y alerta sobre la posibilidad de que también se puedan “enviar mensajes de texto falsos y correos electrónicos, publicar falsos mensajes en línea, añadir eventos falsos a un calendario”.

“Logramos también que se visite un sitio web malicioso desde el que se puede lanzar un ataque para explotar un dispositivo con vulnerabilidades”, agregaron los investigadores.

Además, los científicos anunciaron que han probado “estos ataques en 16 modelos de Sistemas Controlados por Voz (VCS en inglés) incluyendo Apple, iPhone, Google Nexus, Amazon Echo y automóviles”.

Los comandos fueron realizados en inglés, chino, alemán, francés y español, siendo el ataque efectivo en todos los casos, con porcentajes superiores al 95 por ciento y alcanzando el 100% en la mayor cantidad.

Luego simularon escenas de hackeo con ruido de fondo de oficinas, café y calle: lograron que los dispositivos se activen en el 90% de los casos, aunque el impacto decae a la hora de dar órdenes, ya que la secuencia de sonidos para -por ejemplo- iniciar una llamada, es más compleja.

Al tratarse de una investigación, una “prueba de concepto” según la palabra de quiénes la suscriben, también se enumeran recomendaciones a los fabricantes para solucionar estos baches: “Sugerimos una defensa basada en hardware y software como estrategias para aliviar los ataques”.

Entre las primeras, proponen la mejora de los micrófonos diseñándolos para que estén inhabilitados para la gama de los ultrasonidos, destacando como ejemplo al iPhone 6 Plus, que “puede resistir a comando de voz inaudibles” de forma correcta.

Finalmente, la defensa basada en software examina las características únicas de los comandos de voz que son distintivos de los auténticos respecto de los simulados.

FUENTE