Del escepticismo al asombro
Había leido varios artículos sobre la IA generativa de imágenes Midjourney (MJ) y con cierto escepticismo decidí que la iba a probar.
Una vez creada la cuenta en Discord, empecé a escribir un prompt (una instrucción para que MJ genere una imagen). Curiosamente, el proceso de generación de una imagen tiene alguna similitud con el revelado químico de una fotografía.
De la soledad de una imagen vacía, poco a poco va emergiendo un patrón de miles de puntos de distintos colores y tonalidades, con aspecto caótico, como una especie de tormenta de arena multicolor. Es la proto imagen que se está formando. El proceso suele durar alrededor de un minuto. Con el paso de los segundos, de ese caos inicial va emergiendo una imagen, inicialmente muy difusa y borrosa, y poco a poco va adquiriendo forma y detalle.
Cuando la imagen terminó de formarse por completo (en realidad se crean cuatro imágenes simultáneas que son variantes del mismo germen) las observé con detalle y empecé a sentir una sensación de asombro. ¿Cómo era posible que de unas pocas palabras se hubiera creado esta imagen?
Elegí una de las cuatro imágenes, le di la instrucción de ampliarla, y luego la abrí a pantalla completa… La luz, las sombras, los colores, los degradados, las formas, ¡todo era increíblemente fotográfico! No había atisbo de que esto lo había creado un algoritmo.
Mi cerebro empezó a segregar dopamina y a activar los circuitos neuronales asociados con la curiosidad, la ilusión y la experimentación. Sentí la misma sensación que tuve en 1998 cuando por primera vez disparé unas fotografías con una cámara digital.
Me di cuenta enseguida de que esto cambiaría la fotografía, y sobre todo, que la fotografía digital abría un nuevo mundo lleno de posibilidades creativas. Y así ha sido.
Después de estos primeros instantes con la IA generativa de imágenes, no me cabía ninguna duda de que estábamos ante otra revolución en el mundo de la fotografía, pero aún más profunda que la de finales de los años 90. El elemento diferencial -y clave- en este caso es la velocidad exponencial con la que se están desarrollando estas tecnologías. A tenor de lo que está sucediendo en los últimos meses, un mes para la IA es como lo que fué un año para la fotografía digital.
¿Qué puede y que no puede hacer la IA?
La AI generativa de imágenes a día de hoy, puede hacer muchas cosas, pero también tiene muchas limitaciones. Creo que la clave está en dos factores: por una parte, el nivel de calidad al que ha llegado esta tecnología, y por otra parte, la tasa exponencial de crecimiento que está teniendo.
La limitación más importante que he encontrado es que no puedes generar exactamente los detalles que quieras. Es decir, puedes crear una imagen espléndida desde el punto de vista fotográfico y visual, pero a lo mejor no es exactamente la imagen que querías generar.
He comprobado que MJ a veces hace caso omiso de algunas de las instrucciones que le doy, o simplemente las interpreta de otra manera. Esto no merma la calidad visual de la imagen, pero no es exactamente lo que yo quería.
Lo sorprendente e inquietante de estos modelos, es que se trata de cajas negras. Puede sonar un poco a ciencia ficción, pero la verdad es que nadie sabe exactamente qué está pasando dentro de la IA.
Al parecer, según he leído, todo el proceso es tan extremadamente complejo que va más allá de la capacidad de un cerebro humano para entender lo que está haciendo.Lo sorprendente e inquietante de estos modelos, es que se trata de cajas negras.
Puede sonar un poco a ciencia ficción, pero la verdad es que nadie sabe exactamente qué está pasando dentro de la IA. Al parecer, según he leído, todo el proceso es tan extremadamente complejo que va más allá de la capacidad de un cerebro humano para entender lo que está haciendo.
El Prompt Egineering
Por este motivo ha surgido una nueva y muy demandada disciplina: el prompt engineering. Como no conocemos exactamente los resultados de los procesos que se producen dentro de la IA, la única forma de averiguarlo es mediante ensayo y error.
Y esto es precisamente lo que hacen estos nuevos ingenieros: prueban infinidad de combinaciones de palabras y parámetros para inferir su efecto, y de esta forma generar instrucciones (prompts) que produzcan resultados mucho más cercanos a los deseados.
En realidad todo va tan rápido, que sospecho que en breve las IA generativas, serán aún más inteligentes y podremos hablar con ellas con lenguaje natural, y cada vez serán más capaces de producir exactamente lo que queremos.
¿Cómo afecta hoy a la fotografía comercial?
Después de haber generado unas cuantas imágenes con Midjourney, me quedó muy claro que la primera víctima de esta revolución van a ser los fotógrafos de stock.
Fíjate en esta imagen: ¿qué costo de producción crees qué puede tener? Para las personas que no conocen el mundo de la fotografía comercial, no se dan cuenta de la profunda revolución que esta tecnología implica. Yo le enseñé a mi mujer alguna de estas fotos, y ella, sin inmutarse, me dijo ¡qué bonitas! pero no entendió realmente las implicaciones que esto va a tener en la fotografía comercial.
Piensa que una imagen como esta puede costar miles de euros en producirla: detrás de ella está el trabajo de un equipo creativo, de un equipo de producción, del equipo del fotógrafo, las localizaciones, los viajes, el atrezzo, y el propio shooting, además de la posproducción, entre otros. Y yo he tardado 1 minuto en crearla...
El tipo de fotografía de stock más demandado suele ser el que contiene personas en entornos de trabajo o de ocio. Producir estas fotos es caro: tienes que pagar a modelos buscar y alquilar localizaciones y equipos fotográficos. Midjourney ni se despeina en crearlas. Y lo hace ¡muy bien! Por tanto, a partir de ahora, ya no va a ser rentable producir fotografía de stock en la mayor parte de los casos.
¿Cómo afectará a los fotógrafos de personas?
En esta categoría yo incluyo dos grandes grupos: los fotógrafos que yo denomino de glamour, como son los de moda y belleza, y los fotógrafos sociales, que son los fotoperiodistas y de deportes, los fotógrafos de eventos y de retrato.
En el caso de los fotógrafos de moda y belleza, es posible que sean los siguientes en verse perjudicados. La clave de este tipo de fotografía son el modelo y/o la ropa. Ambas cosas las puede generar perfectamente MJ. Los modelos que crea -de manera espectacular- son personas que no existen, y que por tanto no cobran derechos de imagen. ¡Y tampoco se cansan!
¿Y la ropa? Esta es la parte más complicada en estos momentos. Aunque MJ sí es capaz de crear ropa de forma magistral, no sabe replicar exactamente una ropa en particular, … aunque creo que le queda poco para que pueda ser capaz de hacerlo.
En el caso de los fotógrafos sociales, intuyo que van a ser los menos perjudicados, al menos de momento, ya que MJ no es capaz de replicar exactamente a una persona determinada. Además, el componente emocional qué hay detrás de este tipo de fotografía, hace que hoy por hoy nadie quiera fotografías de su boda ¡generadas por inteligencia artificial!
Sin embargo, utilizando otros modelos de IA, se pueden hacer variaciones de algunas fotografías que puedan complementar las reales, como puede ser por ejemplo situar a los novios en un entorno paradisiaco o cualquier otra modificación que pueda ser divertida.
¿Y los fotógrafos de objetos y espacios?
En este grupo están esencialmente, por una parte, los fotógrafos de producto gastronomía y publicidad, y por otra parte, los fotógrafos de arquitectura e interiores.
En el caso del segundo grupo, sucede algo similar a lo de los fotógrafos de glamour: MJ es capaz de generar impresionantes fotografías de producto, pero lo difícil es que sean exactamente del producto qué queramos.
Por ejemplo, puede generar una imagen con una botella de Coca Cola con la técnica de fotografía splash, pero probablemente la botella no será igual a la de nuestro cliente. Sin embargo, esto en principio tendría una solución fácil: terminar la foto en Photoshop. De este modo nos habríamos ahorrado seguramente el 80% del trabajo y el costo de producción.
Por último, están los fotógrafos de espacios. Yo como fotógrafo de arquitectura e interiores, realizo fotografías por encargo de todo tipo de espacios como hoteles, viviendas, oficinas, comercios y centros comerciales, restaurantes e instalaciones industriales.
Yo tengo que fotografiar un espacio en concreto: la habitación de un hotel, una vivienda, un restaurante, etc., y hoy por hoy, no podemos darle instrucciones a MJ para que creé una imagen de un espacio en concreto, salvo que ese espacio sea muy conocido, como puede ser por ejemplo, la Torre Eiffel, el Empire State Building.
Por tanto, en estos momentos MJ no es capaz de generar imágenes de espacios concretos. Pero igual que en los otros campos, es posible que en breve, si se puede hacer, al menos en parte.
En estos momentos ya hay modelos de IA, a los que puedes entrenar con tus propias fotografías, para que aprenda tu estilo fotográfico y de retoque, y de esta manera realice la postproducción por ti. ¡Qué maravilla! Nos quitaríamos una tarea que consume muchas y muchas horas…
Conclusión y Estrategia a Seguir
En primer lugar, constatar que la IA de facto está revolucionando el mundo de la fotografía comercial -entre otros sectores. En segundo lugar, su velocidad exponencial de desarrollo tiene enormes implicaciones a muy corto plazo. Es decir, esto ha llegado para quedarse, y nadie va a poder pararlo (otra cosa será la regulación legal que se desarrolle).
Como todas las revoluciones, la mejor estrategia es la adaptación. Negarla o rechazarla no sirve de nada, y es la mejor estrategia para quedarse obsoleto muy rápidamente. Recuerda lo que pasó con la transición entre la fotografía química y la digital: los fotógrafos que la rechazaron acabaron fuera del mercado. La diferencia es que esto les sucedió en 5-10 años y en este caso, con la IA, esta obsolescencia se puede producir ¡en 1-2 años!
Todos los cambios implican riesgos, pero también oportunidades. Yo creo que la IA nos va a aportar a los fotógrafos muchas nuevas e interesantes oportunidades. Las posibilidades creativas que nos brinda ya son inmensas. Imáginate dentro de unos pocos años...
Por tanto, mi recomendación no puede ser otra que investigues sobre las oportunidades que te brinda y la incorpores a tu trabajo como fotógrafo comercial cuanto antes. Hace unos días leí en un artículo esta frase que me pareció muy acertada: la IA no te va a quitar tu trabajo. Te lo va a quitar el que sepa manejarla.
¡Déjame tu comentario! Es importante que compartamos ideas...
Nota
Como no podía ser de otra manera, todas las imágenes que aparecen en este artículo las crée con Midjourney v.5. Normalmente, se suelen realizar múltiples iteraciones de cada prompt, es decir, inicias con una instrucción, luego eliges una o varias imagenes, y en función de los resultados obtenidos, refinas el prompt añadiendo o variando las palabras y los parámetros y así varias veces, hasta obtener el resultado deseado. En la mayoría de las imágenes generadas para este artículo solo unitlicé una iteración por una cuestión de tiempo (es decir, directamente me quedé con una de las cuatro imágenes propuestas). Es evidente que al refinar el prompt, puedes conseguir resultados mucho más originales y sobresalientes.