domingo, 4 de diciembre de 2016

¿Por qué las computadoras son incapaces de entender los cómics?

Son capaces de hacer ‘swipe’ en Tinder según tus gustos, jugar al Go contigo o de reconocer rostros en fotografías. Los avances en inteligencia artificial dejan boquiabiertos a propios y extraños cada día. Sin embargo, a la hora de leer un comic de Iron Man, la cosa se complica. Porque, aunque ya pueden acompañarnos en nuestros juegos o intentos de ligar casi tanto como un amigo humano, lo de las viñetas todavía se les resiste.


Mohit Iyyer, un investigador de la Universidad de Maryland, ha coordinado un equipo que ha investigado si a una máquina le resulta fácil o difícil leer un cómic. El resultado ha sido desastroso (o beneficioso, desde la perspectiva del humano que no quiere que una máquina lo supere): la inteligencia artificial no fue capaz de entender unas cuantas viñetas o tiras de viñetas como lo haría una persona.

Que no sean capaces de entenderlo tiene su explicación en la propia naturaleza del cómic: los tebeos cuentan historias mediante viñetas dibujadas a mano. A diferencia de las fotografías, la composición interna de cada cuadrado o rectángulo es muy aleatoria: personajes, objetos, líneas de movimiento, bocadillos, onomatopeyas… Todo ello conformado por trazos muy variados, según el estilo del autor. El propio estudio adjunta una imagen de las diferentes concepciones artísticas para un león (imagen superior). 

Y ya no hablemos cuando los personajes, encima, rompen el espacio de la viñeta:


Así, la máquina tiene que hacer un esfuerzo colosal: tiene que diseccionar el dibujo y relacionarlo con los bocadillos que, para más inri, son de diversas formas: con burbujas para los pensamientos, acabados en pico para los diálogos, con forma de rayo para los gritos… Y, por si esto fuera poco, relacionar cada una de las viñetas con las anteriores o posteriores. Es decir, leer el cómic y entenderlo.


Además, la máquina no puede rellenar las lagunas que existen entre viñeta y viñeta, algo que sí puede hacer el ser humano. O sea, si en una viñeta se ve una explosión en un edificio y en la siguiente el interior de este con los destrozos, nosotros entendemos que esa última es consecuencia de lo anterior.

“Lo que el creador esconde en sus páginas es lo que hace a los cómics tan interesantes, las conversaciones sobreentendidas, las acciones inadvertidas que acechan en los espacios entre viñetas adyacentes”, dice el estudio. La máquina, de momento, no lo consigue. Nuestra imaginación, sí. Como resume la investigación: “La narrativa visual es a menudo una combinación de información explícita y omisiones sensatas, que dependen de la audiencia para suministrar los detalles ausentes”.
Para llegar a estas conclusiones, el equipo diseñó una base de datos formada por 1,2 millones de viñetas que ocupaban 120 GB de espacio y que iban acompañadas de una transcripción automática del texto de los bocadillos, digitalizado mediante una herramienta de reconocimiento de caracteres.

Eran cómics estadounidenses clásicos, publicados entre los años 30 y 50 del siglo XX, en lo que se conoce como Edad de Oro del cómic en aquel país. Usaron viñetas de 4.000 de las publicaciones mejor valoradas en The Digital Comic Museum, donde hay muchas de estas publicaciones libres de derechos.

Al algoritmo le pidieron varias tareas. Una de ellas es que predijera elementos de la narración y de los personajes de una viñeta dando otras como contexto. Otra, adivinar la viñeta siguiente en una secuencia, tras haber dado varias opciones como posibles. Y por último, sugirieron asociar un bocadillo a un personaje.

El objetivo, como ya hemos visto, fue difícil de conseguir: un ser humano puede adivinarlo con una precisión mayor del 80 %, algo a lo que no llega la máquina a pesar de estar entrenada por los investigadores. “No pueden capturar la gran variación de estilos artísticos y [a la hora de interpretar] modelos textuales batallan con la riqueza y la ambigüedad del diálogo coloquial, muy dependiente del contexto visual”.

De momento, la batalla la están ganando los humanos, pero todo es cuestión de seguir enseñando a las máquinas a interpretar los complejos códigos del cómic y las destrezas para entender sus mecánicas. Quizá en un futuro sean capaces de predecir cómo terminará una tira de Snoopy o una aventura de Tintín. Solo hay que darles tiempo.




Publicar un comentario