¡Mantén esos labios sellados! Las empresas tecnológicas ahora pueden leerlos

Cuida tu lenguaje; gigantes de la tecnología como Amazon, Sony y Google están aprovechando la inteligencia artificial para construir poderosas tecnologías de lectura de labios que están acumulando preocupaciones en torno a la privacidad y la vigilancia al estilo del Gran Hermano

“Inicie la navegación, por favor”, dijo el conductor en el automóvil con pasajeros ruidosos. En cuestión de segundos, un sistema de reconocimiento de voz identificó el comando y activó el sistema de navegación simplemente leyendo los labios del conductor.

En otro caso, un paciente en un hospital con tubos de respiración colocados debajo de sus cuerdas vocales, tiene dificultades para hablar. El ayudante usa SRAVI, una aplicación móvil que usa la tecnología de lectura de labios de Liopa, para escanear el rostro del paciente mientras pronuncia una oración en silencio. El sistema asistido por Inteligencia Artificial (IA) muestra tres declaraciones probables de lo que el paciente puede estar tratando de decir.

(Suscríbase a nuestro boletín Today’s Cache para obtener una instantánea rápida de las 5 principales historias tecnológicas. Haga clic aquí para suscribirse de forma gratuita).

Los usos de la IA han crecido enormemente a lo largo de los años, desde brindar recomendaciones de contenido en Netflix hasta vehículos autónomos. La tecnología de reconocimiento de audio sigue siendo un caso de uso vital, que impulsa a Alexa de Amazon, Bixby de Samsung, Siri de Apple y Cortana de Microsoft, extinta hace mucho tiempo, para realizar tareas simples a partir de comandos de voz.

Pero el reconocimiento de voz del audio silencioso puede ser un juego diferente.

¿Como funciona?

El audio se compone de una secuencia de “fenómenos”, mientras que los movimientos de los labios están formados por “visemas” que son contrapartes del fenómeno en el habla visual.

Un sistema de inteligencia artificial típico para la reconstrucción del habla generalmente funciona según el principio del codificador-decodificador, dice a The Hindu Rajiv Ratn Shah, profesor asistente del Instituto Indraprastha de Tecnología de la Información (IIIT) en Delhi. La IA aprende el mapeo entre el movimiento de los labios y el audio a partir de un elaborado conjunto de datos que consta de combinaciones de movimientos de los labios y el audio correspondiente, y luego lo codifica.

La información codificada ayuda al modelo de IA a interpretar cuál sería el audio correspondiente para el movimiento de labios dado al decodificar la información, agregó. Esto significa que la IA aprende a asignar un fenómeno a un visema de una palabra determinada.

Leer más | Los científicos convierten las señales vocales de un hombre con problemas de habla en palabras

Por ejemplo, dos o más frases pueden pertenecer a clases de visemas similares, como “jugo de elefante” y “te amo”. Esto significa que el movimiento de la mandíbula del hablante se ve similar al decir ambas frases, lo que dificulta que el ojo humano las distinga. Pero un sistema inteligente impulsado por inteligencia artificial complementado por un gran conjunto de datos de posibles combinaciones de movimientos de labios y palabras puede decodificar con precisión las palabras del hablante, describió el profesor Shah en un artículo de investigación titulado ‘Aprovechamiento de la inteligencia artificial para la reconstrucción del habla usando alimentación de video silencioso de múltiples vistas’.

Además, la lectura del habla implica mirar, percibir e interpretar símbolos hablados. Cámaras instaladas en automóviles, teléfonos móviles y hogares capturan el rostro del usuario y descifran los diferentes movimientos de los dientes, la lengua y la boca. El proceso se basa en gran medida en la visión por computadora y las redes neuronales, según un artículo de investigación de 2016 titulado ‘Lip Reading Sentences in the Wild’ en coautoría con Google y la Universidad de Oxford.

¿Qué tan útil es?

El uso de la IA para leer el habla en silencio con los labios puede ser útil, especialmente porque la tarea no es trivial para los humanos, según Rajiv. Para hacerlo manualmente, es posible que se requieran lectores de labios expertos y expertos en multimedia, lo que no siempre garantiza la reconstrucción del habla en tiempo real, agregó.

“Además, las soluciones de IA funcionan mejor que cualquier persona normal”, explica el profesor Shah.

La tecnología tiene aplicaciones en varias áreas como seguridad (captura de videos silenciosos usando CCTV) e investigaciones de delitos. El sistema LipSecure de Liopa, con sede en el Reino Unido, se puede integrar en sistemas biométricos para evitar ataques de suplantación de identidad, según la compañía. La tecnología genera una secuencia aleatoria y escanea el rostro y la boca del usuario mientras lo dice frente a la cámara.

En el sector sanitario, aplicaciones como SRAVI podrían ayudar a los pacientes con parálisis cerebral y disartria a comunicarse con los demás.

La startup TrueSync, con sede en Londres, utiliza IA para crear visualizaciones sincronizadas con los labios en varios idiomas, un movimiento que algún día podría reemplazar el proceso de doblaje de películas en diferentes idiomas. Tal tecnología podría hacer maravillas con plataformas de transmisión over-the-top (OTT) como Netflix, Hulu y Amazon Prime Video, que cada vez albergan más contenido en idiomas regionales e internacionales. ¡Imagínese viendo la serie en español Casa Del Papel o Money Heist en su idioma preferido con traducción en tiempo real!

Se dice que el equipo del profesor Shah construyó el primer sistema de lectura de voz inteligible del mundo en 2018, que usa múltiples vistas de cámara para decodificar el habla silenciosa, un paso adelante de los sistemas de vista única que pueden no tener en cuenta las distracciones en un automóvil o en el hogar. .

Los gigantes tecnológicos han entrado en el espacio. ¿Existe alguna amenaza?

En 2016, la división de inteligencia artificial de Google, DeepMind, y la Universidad de Oxford crearon un software de lectura de labios que se dice que tiene alrededor del 50% de precisión. En el Consumer Electronics Show de 2021, Sony presentó el sistema Visual Speech Enablement; utiliza sensores de cámara para mejorar la lectura de labios en cualquier entorno.

Las herramientas impulsadas por inteligencia artificial se basan en grandes cantidades de datos a los que solo pueden acceder grandes empresas como Google, Microsoft y Amazon, lo que les facilita el diseño de sistemas automáticos de reconocimiento de voz, comenta Shah. Sin embargo, la privacidad de los datos podría ser un desafío importante en una industria dominada por pocos magnates de la tecnología. “Las empresas deben informar a los consumidores sobre cómo se almacenan sus datos privados”, afirma.

La mayoría de los clientes no se dan cuenta ni comprenden el alcance de la intrusión que ellos mismos permiten o inadvertidamente permiten, dijo a The Hindu el defensor de la Corte Suprema NS Nappinai, fundador de la empresa de concientización sobre seguridad en línea Cyber Saathi. “Si, por ejemplo, el producto de Sony que trabaja con el sensor de imagen de visión inteligente y la inteligencia artificial utiliza la lectura de labios para actuar en los comandos de voz, como se informa, las cámaras siempre están encendidas y capturan no solo el comando sino todo lo demás. No se sabe cómo se utilizarán estos datos ni cómo los delincuentes pueden hacer un uso indebido de un producto de este tipo ”, comenta.

Las tecnologías de reconocimiento de voz visual también enfrentan otros desafíos similares a cualquier sistema impulsado por IA: la aparición de deepfakes y vigilancia excesiva.

Leer más | Deepfakes: engañar a los internautas

Se pueden crear imágenes transformadas y videos manipulados utilizando las aplicaciones más simples, lo que hace que el contenido parezca más realista que los medios manipulados manualmente. Esto podría causar daños a gran escala, ya que los malhechores podrían usarlo para manipular las elecciones, difundir el odio y crear una sociedad de confianza cero.

Actualmente, los clientes están sujetos a una vigilancia corporativa desenfrenada, incluso en los países de la UE, explica Nappinai. Ella explica: “Esto es a pesar de los estrictos niveles de protección de datos personales del Reglamento General de Protección de Datos (GDPR) y las innumerables multas impuestas. El uso por parte del gobierno de dicha tecnología o de los datos recopilados a través de dicha tecnología, nuevamente es una certeza “.

Nappinai da el ejemplo de un doble asesinato en enero de 2017, explicando: “En este caso de 2018, se requirió una orden judicial, que fue otorgada, para que las grabaciones de Amazon Echo fueran publicadas”.

Desde la perspectiva del desarrollador de tecnología, la tecnología responsable es la clave, agrega y, por lo tanto, concluye: “Desde la perspectiva del usuario, es importante que comprendan hasta qué punto un producto compromete la privacidad antes de comprarlo o usarlo. El consentimiento informado y consciente es clave “.

¡Mantén esos labios sellados! Las empresas tecnológicas ahora pueden leerlos

Cuida tu lenguaje; gigantes de la tecnología como Amazon, Sony y Google están aprovechando la inteligencia artificial para construir poderosas tecnologías de lectura de labios que están acumulando preocupaciones en torno a la privacidad y la vigilancia al estilo del Gran Hermano

¿Como funciona?

¿Qué tan útil es?

Los gigantes tecnológicos han entrado en el espacio. ¿Existe alguna amenaza?

Share this:

Lionel Messi ha vuelto al Barcelona, ​​pero no definitivamente

Los Tigres de Detroit se calman a medida que aumenta la actividad

You may also like

Leave a Comment Cancel Reply

Lionel Messi ha vuelto al Barcelona, pero no definitivamente