Home / Curiosidades web / Un programa de Inteligencia Artificial recrea caras a partir de audios

Un programa de Inteligencia Artificial recrea caras a partir de audios

La Inteligencia Artificial (IA) y el Machine Learning siguen dejando personas boquiabiertas. Estas nuevas tecnologías continúan explorando nuevos terrenos y creciendo a enorme velocidad. ¡Ya existe un programa capaz de “recrear” o “reconstruir” la cara de una persona solamente a través de fragmentos de voz!

Te contamos todos los detalles sobre este caso fascinante 👇

¿Cómo funciona el programa?

La recreación de rostros a través de fragmentos de audio es posible gracias a la IA Speech2Face, un proyecto nacido en el año 2019 y que es parte de un Programa de Investigación y Ciencia del MIT.

Los investigadores (Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman y Michael Rubinstein) diseñaron y entrenaron una red neuronal que analizó millones de videos de personas hablando, tomados de YouTube. Durante el entrenamiento el modelo aprendió a relacionar las voces con los rostros, permitiendo finalmente, producir imágenes con atributos físicos similares a los hablantes, incluyendo la edad, género y etnicidad.

Si bien ya existía tecnología capaz de estimar los dos primeros factores, el componente étnico es una novedad propia de la IA Speech2Face.

Aquí tienes una muestra de los increíbles resultados obtenidos por esta tecnología. La primera imagen de la izquierda es la original y la última de la derecha es la reconstrucción obtenida desde audio.

Una cuestión de Machine Learning

El sistema se apoya en dos instancias. En la primera codifica el audio para reconocer patrones. Luego decodifica esa información y genera imágenes de rostros.

Y si bien el mismo ha conseguido resultados asombrosos y presenta un alto número de coincidencias, recreando rostros muy similares a los reales, también ha arrojado algunas fallas en donde no ha coincidido la etnicidad, la edad o el género con la muestra de voz utilizada. En la siguiente imagen puedes observar algunos de estos errores:

No obstante, al igual que cualquier otro sistema de machine learning, esta tecnología podría tener la capacidad de ir mejorando con el tiempo, ya que en cada uso, esta aumenta su biblioteca de conocimientos.

En relación a esto último, el proyecto ha hecho algunas aclaraciones importantes. Speech2Face ha pronunciado que la recreación de las caras no da rostros completos, solo recrea parecidos, con la intención proteger la privacidad de las personas. Un detalle nada menor.

Por último y en relación a las cuestiones étnicas que supone el programa, también ha señalado que cualquier uso práctico de esta tecnología debe probarse de forma cuidadosa para garantizar que los datos sean representativos.

¡Sigue conociendo lo último en tecnología!

¿Sabías que Internet podría cambiar para siempre? Para muchas personas, la Web 3.0 está cada vez más cerca y esta significaría un antes y un después en la experiencia online.

Pero…. ¿Qué significa? Súmate a un increíble Taller DonWeb para aprender todo sobre el tema. 100% online y gratuito. Para inscribirte, haz click aquí.

¡Añade un comentario!

Tu dirección de correo electrónico no será publicada.