Del escepticismo al asombro

Había leido varios artículos sobre la IA generativa de imágenes Midjourney (MJ) y con cierto escepticismo decidí que la iba a probar.

Una vez creada la cuenta en Discord, empecé a escribir un prompt (una instrucción para que MJ genere una imagen). Curiosamente, el proceso de generación de una imagen tiene alguna similitud con el revelado químico de una fotografía.

De la soledad de una imagen vacía, poco a poco va emergiendo un patrón de miles de puntos de distintos colores y tonalidades, con aspecto caótico, como una especie de tormenta de arena multicolor. Es la proto imagen que se está formando. El proceso suele durar alrededor de un minuto. Con el paso de los segundos, de ese caos inicial va emergiendo una imagen, inicialmente muy difusa y borrosa, y poco a poco va adquiriendo forma y detalle.

Esta es la secuencia de generación de una imágen en Midjourney v. 5

Cuando la imagen terminó de formarse por completo (en realidad se crean cuatro imágenes simultáneas que son variantes del mismo germen) las observé con detalle y empecé a sentir una sensación de asombro. ¿Cómo era posible que de unas pocas palabras se hubiera creado esta imagen?

Elegí una de las cuatro imágenes, le di la instrucción de ampliarla, y luego la abrí a pantalla completa… La luz, las sombras, los colores, los degradados, las formas, ¡todo era increíblemente fotográfico! No había atisbo de que esto lo había creado un algoritmo.

Es sorprendentemente fotorealista la imagen que ha creado Midjourney: la luz, las texturas, las sombras... todo es increíble. Este es el pormpt que utilicé: "ultra closeup, high detail, high contrast, of a commercial beauty photograph of a young woman with blonde hair and blue eyes, creative fashion makeup and hairdo, intense look in her eyes, shallow depth of field, studio lighting --ar 16:9 --style raw"

Mi cerebro empezó a segregar dopamina y a activar los circuitos neuronales asociados con la curiosidad, la ilusión y la experimentación. Sentí la misma sensación que tuve en 1998 cuando por primera vez disparé unas fotografías con una cámara digital.

Me di cuenta enseguida de que esto cambiaría la fotografía, y sobre todo, que la fotografía digital abría un nuevo mundo lleno de posibilidades creativas. Y así ha sido.

Este es mi cerebro después de ver las primeras imágenes creadas por Midjourney :)

Después de estos primeros instantes con la IA generativa de imágenes, no me cabía ninguna duda de que estábamos ante otra revolución en el mundo de la fotografía, pero aún más profunda que la de finales de los años 90. El elemento diferencial -y clave- en este caso es la velocidad exponencial con la que se están desarrollando estas tecnologías. A tenor de lo que está sucediendo en los últimos meses, un mes para la IA es como lo que fué un año para la fotografía digital.

¿Qué puede y que no puede hacer la IA?

La AI generativa de imágenes a día de hoy, puede hacer muchas cosas, pero también tiene muchas limitaciones. Creo que la clave está en dos factores: por una parte, el nivel de calidad al que ha llegado esta tecnología, y por otra parte, la tasa exponencial de crecimiento que está teniendo.

La limitación más importante que he encontrado es que no puedes generar exactamente los detalles que quieras. Es decir, puedes crear una imagen espléndida desde el punto de vista fotográfico y visual, pero a lo mejor no es exactamente la imagen que querías generar.

He comprobado que MJ a veces hace caso omiso de algunas de las instrucciones que le doy, o simplemente las interpreta de otra manera. Esto no merma la calidad visual de la imagen, pero no es exactamente lo que yo quería.

Para esta imágen le pedí a MJ que creara una botella verde de Heineken, con gotas de condensación y un chorro de cerveza saliendo de la botella. Hizo caso omiso del chorro de cerveza... Y además, acabas de ver una de las importantes limitaciones de MJ: ¡no sabe escribir texto en las imágenes!

Lo sorprendente e inquietante de estos modelos, es que se trata de cajas negras. Puede sonar un poco a ciencia ficción, pero la verdad es que nadie sabe exactamente qué está pasando dentro de la IA.

Al parecer, según he leído, todo el proceso es tan extremadamente complejo que va más allá de la capacidad de un cerebro humano para entender lo que está haciendo.Lo sorprendente e inquietante de estos modelos, es que se trata de cajas negras.

Esta es la interpretación que MJ ha hecho de mi instrucción sencilla: "una caja negra". El realismo de las texturas y sombras es impresionante ¡y desde luego ha avanzado mucho en la creación correcta de las manos!

Puede sonar un poco a ciencia ficción, pero la verdad es que nadie sabe exactamente qué está pasando dentro de la IA. Al parecer, según he leído, todo el proceso es tan extremadamente complejo que va más allá de la capacidad de un cerebro humano para entender lo que está haciendo.

El Prompt Egineering

Por este motivo ha surgido una nueva y muy demandada disciplina: el prompt engineering. Como no conocemos exactamente los resultados de los procesos que se producen dentro de la IA, la única forma de averiguarlo es mediante ensayo y error.

Y esto es precisamente lo que hacen estos nuevos ingenieros: prueban infinidad de combinaciones de palabras y parámetros para inferir su efecto, y de esta forma generar instrucciones (prompts) que produzcan resultados mucho más cercanos a los deseados.

Así es como concibe MJ un prompt engineer trabajando

En realidad todo va tan rápido, que sospecho que en breve las IA generativas, serán aún más inteligentes y podremos hablar con ellas con lenguaje natural, y cada vez serán más capaces de producir exactamente lo que queremos.

¿Cómo afecta hoy a la fotografía comercial?

Después de haber generado unas cuantas imágenes con Midjourney, me quedó muy claro que la primera víctima de esta revolución van a ser los fotógrafos de stock.

Fíjate en esta imagen: ¿qué costo de producción crees qué puede tener? Para las personas que no conocen el mundo de la fotografía comercial, no se dan cuenta de la profunda revolución que esta tecnología implica. Yo le enseñé a mi mujer alguna de estas fotos, y ella, sin inmutarse, me dijo ¡qué bonitas! pero no entendió realmente las implicaciones que esto va a tener en la fotografía comercial.

Una espléndida imágen de un Ferrari descapotable... ¿Cuánto habría costado producir esta imágen? Incluso con infografía -que se utiliza mucho en publicidad de coches- habría sido una producción cara. Yo tardé 1 minuto en crearla.

Piensa que una imagen como esta puede costar miles de euros en producirla: detrás de ella está el trabajo de un equipo creativo, de un equipo de producción, del equipo del fotógrafo, las localizaciones, los viajes, el atrezzo, y el propio shooting, además de la posproducción, entre otros. Y yo he tardado 1 minuto en crearla...

El tipo de fotografía de stock más demandado suele ser el que contiene personas en entornos de trabajo o de ocio. Producir estas fotos es caro: tienes que pagar a modelos buscar y alquilar localizaciones y equipos fotográficos. Midjourney ni se despeina en crearlas. Y lo hace ¡muy bien! Por tanto, a partir de ahora, ya no va a ser rentable producir fotografía de stock en la mayor parte de los casos.

¿Una foto de stock? No, ¡es Midjourney en acción!

¿Cómo afectará a los fotógrafos de personas?

En esta categoría yo incluyo dos grandes grupos: los fotógrafos que yo denomino de glamour, como son los de moda y belleza, y los fotógrafos sociales, que son los fotoperiodistas y de deportes, los fotógrafos de eventos y de retrato.

En el caso de los fotógrafos de moda y belleza, es posible que sean los siguientes en verse perjudicados. La clave de este tipo de fotografía son el modelo y/o la ropa. Ambas cosas las puede generar perfectamente MJ. Los modelos que crea -de manera espectacular- son personas que no existen, y que por tanto no cobran derechos de imagen. ¡Y tampoco se cansan!

Primer plano de una modelo para una revista de moda. Espléndida. Lo inquietante es que estas personas no existen...

Midjourney es capaz de generar esplénidads fotografías de modelos con todo tipo de vestimenta y peinados, en todos los estilos imaginables y de cualquier época de la historia. Y todo ello, con una calidad excepcional.

¿Y la ropa? Esta es la parte más complicada en estos momentos. Aunque MJ sí es capaz de crear ropa de forma magistral, no sabe replicar exactamente una ropa en particular, … aunque creo que le queda poco para que pueda ser capaz de hacerlo.

En el caso de los fotógrafos sociales, intuyo que van a ser los menos perjudicados, al menos de momento, ya que MJ no es capaz de replicar exactamente a una persona determinada. Además, el componente emocional qué hay detrás de este tipo de fotografía, hace que hoy por hoy nadie quiera fotografías de su boda ¡generadas por inteligencia artificial!

Esta es la gran limitación de MJ: no puede reproducir personas ni espacios ni objetos concretos, aunque tampoco lo hace mal. Por eso, los fotógrafos sociales, no están en riesgo...¡de momento!

¡A Midjourney se le da bien casi todo! Es increible el fotorealismo de estos deportistas.

Sin embargo, utilizando otros modelos de IA, se pueden hacer variaciones de algunas fotografías que puedan complementar las reales, como puede ser por ejemplo situar a los novios en un entorno paradisiaco o cualquier otra modificación que pueda ser divertida.

¿Y los fotógrafos de objetos y espacios?

En este grupo están esencialmente, por una parte, los fotógrafos de producto gastronomía y publicidad, y por otra parte, los fotógrafos de arquitectura e interiores.

En el caso del segundo grupo, sucede algo similar a lo de los fotógrafos de glamour: MJ es capaz de generar impresionantes fotografías de producto, pero lo difícil es que sean exactamente del producto qué queramos.

Por ejemplo, puede generar una imagen con una botella de Coca Cola con la técnica de fotografía splash, pero probablemente la botella no será igual a la de nuestro cliente. Sin embargo, esto en principio tendría una solución fácil: terminar la foto en Photoshop. De este modo nos habríamos ahorrado seguramente el 80% del trabajo y el costo de producción.

La botella está un poco achatada, pero teniendo en cuenta que he tardado 1 minuto eh hacerla, puedo terminarla en Photoshop.

¡A Midjourney se le da francamente bien el splash photography!

Por último, están los fotógrafos de espacios. Yo como fotógrafo de arquitectura e interiores, realizo fotografías por encargo de todo tipo de espacios como hoteles, viviendas, oficinas, comercios y centros comerciales, restaurantes e instalaciones industriales.

Yo tengo que fotografiar un espacio en concreto: la habitación de un hotel, una vivienda, un restaurante, etc., y hoy por hoy, no podemos darle instrucciones a MJ para que creé una imagen de un espacio en concreto, salvo que ese espacio sea muy conocido, como puede ser por ejemplo, la Torre Eiffel, el Empire State Building.

Estas son magníficas fotos de salones de una casa... pero no es la casa que me han pedido que fotografie...

Por tanto, en estos momentos MJ no es capaz de generar imágenes de espacios concretos. Pero igual que en los otros campos, es posible que en breve, si se puede hacer, al menos en parte.

En estos momentos ya hay modelos de IA, a los que puedes entrenar con tus propias fotografías, para que aprenda tu estilo fotográfico y de retoque, y de esta manera realice la postproducción por ti. ¡Qué maravilla! Nos quitaríamos una tarea que consume muchas y muchas horas…

Una sugestiva imagen de una habitación de un hotel de lujo... pero no es el hotel que me han pedido que fotografie...

Lo mismo sucede con estas espéndidas fotos de arquitectura. Son excelentes, pero no es la casa que me han pedido que retrate

Conclusión y Estrategia a Seguir

En primer lugar, constatar que la IA de facto está revolucionando el mundo de la fotografía comercial -entre otros sectores. En segundo lugar, su velocidad exponencial de desarrollo tiene enormes implicaciones a muy corto plazo. Es decir, esto ha llegado para quedarse, y nadie va a poder pararlo (otra cosa será la regulación legal que se desarrolle).

Como todas las revoluciones, la mejor estrategia es la adaptación. Negarla o rechazarla no sirve de nada, y es la mejor estrategia para quedarse obsoleto muy rápidamente. Recuerda lo que pasó con la transición entre la fotografía química y la digital: los fotógrafos que la rechazaron acabaron fuera del mercado. La diferencia es que esto les sucedió en 5-10 años y en este caso, con la IA, esta obsolescencia se puede producir ¡en 1-2 años!

El futuro ya está aquí... aprovecha esta extraordinaria oportunidad

Todos los cambios implican riesgos, pero también oportunidades. Yo creo que la IA nos va a aportar a los fotógrafos muchas nuevas e interesantes oportunidades. Las posibilidades creativas que nos brinda ya son inmensas. Imáginate dentro de unos pocos años...

Por tanto, mi recomendación no puede ser otra que investigues sobre las oportunidades que te brinda y la incorpores a tu trabajo como fotógrafo comercial cuanto antes. Hace unos días leí en un artículo esta frase que me pareció muy acertada: la IA no te va a quitar tu trabajo. Te lo va a quitar el que sepa manejarla.

¡Déjame tu comentario! Es importante que compartamos ideas...

Nota

Como no podía ser de otra manera, todas las imágenes que aparecen en este artículo las crée con Midjourney v.5. Normalmente, se suelen realizar múltiples iteraciones de cada prompt, es decir, inicias con una instrucción, luego eliges una o varias imagenes, y en función de los resultados obtenidos, refinas el prompt añadiendo o variando las palabras y los parámetros y así varias veces, hasta obtener el resultado deseado. En la mayoría de las imágenes generadas para este artículo solo unitlicé una iteración por una cuestión de tiempo (es decir, directamente me quedé con una de las cuatro imágenes propuestas). Es evidente que al refinar el prompt, puedes conseguir resultados mucho más originales y sobresalientes.

SOBRE EL AUTOR

Miguel Merino

Miguel Merino es un Fotógrafo Profesional durante más de 20 años, emprendedor, escritor y conferenciante y apasionado de todas técnicas que permitan retratar el mundo desde nuevas e inéditas perspectivas .

HOMEPAGE

CURSOS

TU MENTOR

BLOG

Login

IA ¿La Revolución o el Final de la Fotografía?