En el cada vez más concurrido universo de la inteligencia artificial (IA) aparecen diferentes métodos capaces de crear imágenes realistas aunque inexistentes. Desde uno que genera fotos de hogares falsos, hasta sistemas que inventan rostros humanos.

Un nuevo ingenio se suma a la lista. Se trata de “Speech2Face”, una IA que se basa en voces humanas para trazar las características físicas de una persona. El mecanismo fue diseñado en el MIT, el reconocido Instituto Tecnológico de Massachusetts, en Estados Unidos. En específico, surgió de la división CSAIL de esa entidad, especializada en el campo de la inteligencia artificial.

Voces, rostros y ética

“¿Cuánto podemos inferir de una persona por la forma en que habla?”, se preguntan los creadores de esta tecnología en un paper que detalla su funcionamiento. Explican que crearon una red neuronal y la entrenaron con millones de videos de personas reales, tomados de YouTube.

“Durante esta capacitación, nuestro modelo aprende sobre el contenido audiovisual y establece correlaciones de voz que le sirven para producir imágenes de los atributos físicos de los hablantes, como la edad, el género y la etnia”, señalan.

El sistema se apoya en dos instancias. En la primera codifica el audio y reconoce patrones. Después decodifica esa información y genera imágenes de rostros. Como podés ver en las imágenes que comparten, las “personas inventadas” tienen gesto neutro y están de frente. Y muchas de ellas se acercan al aspecto del hablante original.

Los investigadores señalan, no obstante, que el sistema presenta varias limitaciones. Una de ellas es idiomática. “Si cierto idioma no aparece en los datos de entrenamiento, las reconstrucciones no capturarán bien los atributos faciales que podrían estar correlacionados con ese lenguaje”. En ese sentido, si el modelo escucha a un asiático hablando en inglés generará la imagen de un hombre blanco.

Los propios expertos del MIT saben que este mecanismo cuanto menos puede ser descrito como prejuicioso. Por eso, la investigación incluye un apartado de consideraciones éticas en el que señalan que “aunque se trate de una investigación puramente académica, es importante discutir explícitamente una serie de consideraciones (…) debido a la posible sensibilidad de la información”.

En esa sección aseguran que si bien el sistema recrea rostros, no puede generar la verdadera y exacta identidad de una persona en función de su voz. “El modelo sólo produce apariencias promedio y no individuos específicos”, dicen.

Leé también
Estudiaron el llanto de los bebés con algoritmos y descubrieron nuevos patrones de comunicación
En ese sentido comentan que la tecnología que desarrollaron fue creada para “revelar correlaciones estadísticas entre las características faciales y las voces”.

Y concluyen con la siguiente recomendación: “Cualquier investigación adicional o uso práctico de esta tecnología debe probarse cuidadosamente para garantizar que los datos de capacitación sean representativos”.