Lenovo y el Centro de Estudios y Sistemas Avanzados de Recife (CESAR) de Brasil han desarrollado una aplicación basada en inteligencia artificial (IA) que es capaz de "traducir" el lenguaje de señas para personas oyentes.
Más de 2.3 millones de brasileños enfrentan dificultades de comunicación debido a la sordera profunda y utilizan la Lengua Brasileña de Signos (Libras) y la Lengua Portuguesa de Signos (LGP), junto con varios dialectos regionales de signos, según el Instituto Brasileño de Geografía y Estadística (IBGE). La escala y la complejidad del desafío impulsaron el proyecto de investigación y desarrollo de cinco años, financiado por Lenovo con una inversión superior a los 4 millones de dólares.
Aprovechando una base de datos de miles de videos de Libras, las organizaciones desarrollaron una tecnología de inteligencia artificial patentada capaz de identificar visualmente y contextualizar gestos individuales. La iniciativa es descrita por CESAR y Lenovo como una primicia mundial con potencial para una aplicación universal.
Creemos que el impacto en estas personas será mayor que el que tuvieron los traductores en línea para los lenguajes escritos, dijo Hildebrando Lima, director de investigación y desarrollo de Lenovo Brasil, en una entrevista con Forbes. "Antes de los traductores en línea, había diccionarios en línea, pero no abordan la dificultad que enfrentan muchos para comprender los signos, a veces debido a la falta de práctica o falta de materiales de aprendizaje e instructores", señaló Lima, y agregó que la tecnología posibilitará bajar estas barreras cuando estén completamente desarrolladas.
Basado en redes neuronales de aprendizaje profundo, la arquitectura del sistema es similar a modelos como GPT-3 para la traducción y el reconocimiento del portugués al libra, lo que facilita la traducción del lenguaje de señas en tiempo real. Para la generación de videos en lenguaje de señas, las organizaciones crearon un intérprete sintético (un avatar virtual similar a un humano) usando modelos de Red Generativa Adversaria (GAN).
Sin embargo, la complejidad de la aplicación requería el desarrollo de sistemas de inteligencia artificial para automatizar numerosas tareas, dijo Vitor Casadei, gerente sénior de científicos técnicos de datos de CESAR. Por ejemplo, la creación de la base de datos de capacitación [las grabaciones utilizadas para entrenar los modelos de reconocimiento de señales] fue facilitada por los sistemas de visión por computadora creados por el equipo, señaló el ejecutivo.
En el proyecto trabajó un equipo de 80 personas, incluidos cinco profesionales con discapacidad auditiva, así como la comunidad para la que se creó el sistema. Además de los profesionales sordos del equipo, la participación de la comunidad sorda en el proyecto es fundamental, dijo Casadei, y agregó que hubo decenas de personas sordas involucradas en los procesos de diseño, validación y prueba de la herramienta.
Relevancia mundial
El plan de Lenovo es extender el uso del sistema a otros lenguajes de señas en todo el mundo, utilizando un procedimiento pendiente de patente que aprovecha los puntos en común entre diferentes lenguajes de señas para acelerar el proceso de aprendizaje.
"Varios estudios indican que las lenguas de señas comparten varias características, de manera similar a las lenguas habladas. Desarrollamos una técnica que tiene en cuenta este hecho y, así, es posible aprovechar los aprendizajes en la formación [Lengua de Señas Brasileña], para acelerar la aprendizaje de otras lenguas de señas, arrojando resultados muy prometedores", dijo Casadei de CESAR.
Según Lima de Lenovo, el plan es expandir el proyecto internacionalmente para 2024/25, comenzando con América Latina y Estados Unidos. "Creemos que las demandas de casos de uso [en EEUU] son muy similares", dijo el ejecutivo.
Si bien el enfoque inicial se encuentra en áreas como la banca y el comercio minorista, el objetivo final es implementar la aplicación en cualquier contexto de servicio público, ya sea virtual, físico o híbrido. Además, el plan de Lenovo es poner el kit de desarrollo de software (SDK) a disposición de la comunidad de desarrolladores, impulsando aún más el desarrollo de soluciones para personas con discapacidad auditiva.
La privacidad también ha sido una preocupación clave a lo largo del desarrollo del proyecto. Todos los participantes, desde los involucrados en las grabaciones hasta los de validación y prueba, firmaron un documento que autorizó el uso de sus contribuciones para investigación, en cumplimiento de la Normativa General de Protección de Datos (LGPD) de Brasil.
Para salvaguardar la privacidad de los usuarios, los modelos están diseñados para capturar solo los datos esenciales de las cámaras para el reconocimiento de signos, como formas de manos o movimientos corporales, dijo Casadei de CESAR. "Es imposible identificar a una persona específica a partir de este conjunto de datos, lo que garantiza el cumplimiento de la LGPD respetando la privacidad del usuario", señaló el ejecutivo.
Las organizaciones esperan que la herramienta experimente una mejora continua a medida que más personas la utilicen. Estos ejercicios incluirán adiciones continuas a las grabaciones de señales, recopilando comentarios de los usuarios y refinando el proceso de calibración de la aplicación. "El equipo también ha comenzado algunos experimentos con Active Learning [un método de enseñanza que involucra a los estudiantes en el aprendizaje interactivo a través de discusiones, resolución de problemas y juegos de roles] con resultados prometedores, aunque aún queda mucho trabajo por hacer", dice el ejecutivo de CESAR.
Tanto CESAR como Lenovo también han explorado el potencial de la herramienta con fines educativos, en particular para la enseñanza de lenguajes de señas. Las empresas han presentado una serie de patentes en este dominio, que actualmente se encuentran en revisión. Si bien el "traductor" de lenguaje de señas actualmente no incluye reconocimiento de voz para los usuarios que pueden hablar pero no oír, este es un tema de discusión en curso para el desarrollo futuro.
En última instancia, el sistema tiene como objetivo fomentar la participación activa de las personas sordas como comunicadores y no como simples receptores, rompiendo las barreras existentes y promoviendo una sociedad más inclusiva. "Estamos totalmente convencidos de que esta tecnología transformará por completo las interacciones entre las personas que oyen y las personas con discapacidad auditiva", concluyó Lima.
*Nota publicada originalmente en Forbes EE.UU.