Boris Eldagsen, artista visual alemán, ganó el primer lugar en fotografía creativa en el Sonny World Photography Awards de 2023 con la obra Pseudoamnesia: The Electrician. El 13 de abril, Eldagsen asistió a la ceremonia de premiación en Londres y, al contrario del resto de los laureados, rechazó el galardón.
"Gracias por seleccionar mi imagen y hacer de este un momento histórico” ―declaró el artista en su discurso― “ya que es la primera imagen generada por IA (inteligencia artificial) que gana en un prestigioso concurso internacional de fotografía”. Luego añadió: “Las imágenes generadas por IA y la fotografía no deberían competir entre sí en un premio como este. Son entidades diferentes. La IA no es fotografía. Por lo tanto, no aceptaré el premio. Me presenté como descarado, para averiguar si los concursos están preparados para imágenes de IA. No lo están”.
Si bien no había declarado explícitamente que competía con una obra generada por inteligencia artificial, Eldagsen sí comunicó a los organizadores el uso de IA en The Electrician, aunque sin especificar en qué grado. “Nosotros, el mundo de la fotografía, necesitamos un debate abierto. Una discusión sobre lo que queremos considerar fotografía y lo que no. ¿Es el paraguas de la fotografía lo suficientemente grande como para invitar a participar a imágenes de IA, o sería un error?”, concluyó Eldagsen.
Retrato de DALL-E
Boris Eldagsen, nacido en Alemania Occidental en 1970, tiene una trayectoria de 30 años como fotógrafo y solo recientemente se dedica a generar imágenes a partir de IA con fines artísticos. The Electrician es, de hecho, parte de la serie Pseudoamnesia, realizada por completo mediante DALL-E 2, una plataforma desarrollada por la compañía estadounidense OpenAi con el fin de que sus usuarios puedan generar imágenes de forma relativamente sencilla.
El proceso, como explica el propio Eldagsen, no es solo “presionar un botón”: la creación de una imagen como The Electrician es resultado de una larga ruta que, en este caso particular, presentó tres momentos creativos: exploratorio, curatorial y de manipulación de las imágenes devueltas por la IA, repetidos todos hasta obtener un resultado satisfactorio.
Hagamos, ahora, un par de aclaraciones importantes: la mayoría de los usuarios, al carecer de conocimientos en programación, interactúa con las IAs mediante distintas interfaces, que van desde un sitio web o un chatbot hasta un canal en Telegram.
El uso de interfaces y computación en la nube posibilita, en buena medida, el boom de las IAs al favorecer su acceso público, si bien no su democratización. Las interfaces no solo permiten interactuar con ellas sin valerse de códigos, sino también emplear servidores terceros para correr modelos de inteligencia artificial. Generalmente, dichos modelos demandan una capacidad de procesamiento superior a la de una computadora personal promedio; por solo poner un ejemplo, Stable Diffusion, uno de los más ligeros, exige un mínimo de 8 GB de memoria VRAM y 16 de RAM.
Un modelo es una representación simplificada de un sistema y, como tal, pueden entenderse tanto la plantilla completa de los trabajadores de una empresa, como las mareas en la costa cubana o un conjunto de representaciones pictóricas de Cristo. Los modelos se construyen a partir de parámetros medibles de tal forma que, mediante fórmulas matemáticas y algoritmos, se pueda entender y predecir el comportamiento del sistema.
"(...) la mayoría de los usuarios, al carecer de conocimientos en programación, interactúa con las IAs mediante distintas interfaces, que van desde un sitio web o un chatbot hasta un canal en Telegram."
Una inteligencia artificial, en términos simples, es un programa que, partiendo de un modelo previo, es capaz de realizar acciones que recuerdan o simulan actividades humanas como pensar, analizar, aprender o solucionar "problemas".
Las IAs solían ser diseñadas para realizar acciones específicas, enfoque que ha cambiado a uno mucho más flexible y adaptable a distintos usos. Sin embargo, los modelos de hoy aún están lejos de acercarse a una inteligencia artificial generalista, el tipo de IA tan presente en la ciencia ficción y el que nos viene a la cabeza cuando pensamos en el término.
Imágenes de naturaleza similar a The Electrician se generan mediante modelos de inteligencia artificial como MidJourney, DALL-E 2 o Stable Diffusion, por solo mencionar tres de los más populares. Estas son IAs optimizadas para producir contenidos en este formato, partiendo de entradas de texto (prompts) y algunas especificaciones técnicas que los usuarios pueden incluir o no, como una modificación a la relación de aspecto.
"Los humanos podemos comprender conceptos en abstracto, mientras que para una computadora el mundo se define por objetos con atributos bien determinados."
El proceso de generar una imagen mediante IA es increíblemente impredecible: pueden obtenerse resultados muy buenos con pocas palabras, pero lograr una composición específica puede tomar cientos de interacciones. En primer lugar, una computadora no es capaz de entender el lenguaje humano ("lenguaje natural" en informática) de la misma forma que nosotros. Los humanos podemos comprender conceptos en abstracto, mientras que para una computadora el mundo se define por objetos con atributos bien determinados.
Cando se ingresa un prompt a una IA, esta primero debe aplicarle un modelo de procesamiento de lenguaje natural, de tal forma que se traduzca a una serie de elementos expresables en un lenguaje lógico. Supongamos que ponemos el prompt “gato con sombrero”, sin indicar más detalles. El resultado, usando Bing Image Generator, plataforma de Microsoft con DALL-E como modelo, resulta en esta imagen:
Además de esta otra variante:
En cambio, usando Stable Diffusion el resultado es diferente:
Y con MidJourney:
En los todos casos, tenemos un gato y un sombrero identificables. Sin embargo, las imágenes varían considerablemente de un modelo a otro e, incluso, usando un mismo modelo.
Al momento de ingresar el texto, la IA primero debe descomponerlo en términos con significado relevante para la tarea a realizar. Estos términos son conocidos como tokens y suelen estar predefinidos en grandes corpus de palabras de un mismo idioma, en los que se incluyen además las funciones semánticas de cada término.
En el caso del prompt “gato con sombrero”, el modelo de lenguaje natural pudiera identificar como tokens “gato” y “sombrero”, pero al incluirse la conjunción “con” se ve obligado a definir una relación más compleja, probablemente reduciendo todo el prompt a “gato con sombrero”.
Manteniéndonos con Bing Image Generator, añadimos un elemento que modifique el estilo. Ante el texto “gato con sombrero, pintura estilo barroco”, la plataforma devuelve estas cuatro imágenes:
Aunque no sean propiamente barrocas, las imágenes presentan un cambio estilístico significativo respecto a las precedentes. Los sombreros de los felinos, si bien parecen más de finales del siglo XIX, contrastan con los más modernos de las otras imágenes del generador de Bing.
Al descomponer el texto, en este caso, la IA registra dos tokens cuya naturaleza identifica como distinta- “pintura” y “estilo barroco”-, los cuales pasan a modificar toda la imagen en dependencia de los rasgos que la propia IA, durante su entrenamiento, haya aprendido a identificar bajo los términos “pintura” y “barroco”.
El entrenamiento es, en sí, una fase crucial del desarrollo de las IAs, y también una de las razones de mayor peso en la impredecibilidad en el resultado. Las IAs actuales son modelos de aprendizaje automático; durante la fase de entrenamiento aprenden a identificar patrones en grandes conjuntos de datos (en este caso, millones de pares de texto-fotos sacados de la web) sin que medie supervisión humana, por lo que ni siquiera sus desarrolladores saben al ciento por ciento cómo sus IAs entienden un término.
Jon Stokes, experto en inteligencia artificial y confudador de la revista especializada en tecnología Ars Technica, explica que una IA aprende a definir parámetros de una forma muy concreta, reduciendo un parámetro determinado a un eje de coordenadas.
Pongamos un ejemplo: supongamos que una IA tiene que diferenciar entre una silla y un banco, como los de los parques. La IA asume como rasgo característico, digamos, la capacidad de ofrecer asiento a una o más personas. Bajo este único criterio, un sofá, con menos plazas que un banco, pero más que una silla, se ubicaría en un punto intermedio.
En cambio, ¿dónde iría un butacón acolchonado? Posee una sola plaza, pero también muestra otras propiedades con las que no cuenta una silla. Añadimos, entonces, el criterio "dureza", para diferenciar entre un butacón acolchonado y una silla, y el modelo de un análisis unidimensional pasa a uno de dos ejes. Añadiendo parámetros, el modelo gana en complejidad y la capacidad de la IA de predecir cómo debe lucir una imagen asociada a un token aumenta a mayor número de parámetros. DALL-E 2, por ejemplo, emplea cerca de 12 mil millones.
Es posible experimentar mezclando más de un concepto, pues la IA, partiendo de los rasgos que asocia a determinado token, es capaz de predecir como luciría una imagen en el punto donde se cruzan multiplicidad de parámetros. Un prompt puede ser tan largo como se desee, e incluir modificadores que indiquen estilo, iluminación, referentes, composición o encuadres, aunque solo la capacidad del usuario para definir términos claros, descriptivos e identificables para la IA podrá reducir la impredecibilidad del resultado.
A modo de ejemplo, cuatro imágenes generadas mediante el prompt “gato blanco con casco de guerra prusiano, pintura estilo barroco, luz dramática, alto contraste, centrada, alta calidad”: