Meta apuesta por la inteligencia artificial y lanza CM3leon, la herramienta capaz de generar imagen desde texto y viceversa

Tecnología

Meta apuesta por la inteligencia artificial y lanza CM3leon, la herramienta capaz de generar imagen desde texto y viceversa

Meta (empresa matriz de Facebook, Instagram y WhatsApp) lanzó este viernes 14 de julio CM3leon una herramienta de inteligencia artificial (IA) generativa capaz de generar imagen a partir de un texto y viceversa.

Keneth Cruz / EFE

14 de julio de 2023

12:42h

Meta presenta CM3leon, herramienta de IA capaz de generar imagen desde texto y viceversa. (Foto Prensa Libre: Meta)

En un comunicado, la empresa pone varios ejemplos: si uno teclea “un pequeño cactus con un sombrero de paja y gafas de sol de neón en el desierto del Sahara”, se genera una imagen con esa descripción.

Otra función consiste en editar una imagen a partir de una indicación con un texto, como “modificar el color del cielo” de una foto o “ponerle bigote” al cuadro de Johannes Vermeer de “La joven de la perla”. Además, permite pedir a la IA que describa una foto con palabras.

Desde que la IA adquirió popularidad a finales del año pasado, varias empresas han lanzado este tipo de herramientas y Meta anota que CM3leon es mejor que algunas de ellas.

“Al comparar el rendimiento en el punto de referencia de generación de imágenes más utilizado (Zero-shot MS-COCO), CM3Leon logra una puntuación FID (Distancia de inicio de Fréchet) de 4.88, estableciendo un nuevo estado del arte en la generación de texto a imagen y superando al modelo de Google de texto a imagen´(Parti)”, anota la compañía en el comunicado.

LE RECOMENDAMOS

Información falsa y uso inadecuado de los datos de los usuarios: La investigación de ChatGPT en Estados Unidos por posible contenido dañino

Bard ahora habla español: la contraofensiva de Google frente a ChatGPT-4 en la carrera por ser el mejor chatbot de inteligencia artificial

No obstante, Meta no menciona ni a Midjourney ni a Dall-e de OpenAI, las herramientas más populares para este tipo de tareas hasta el momento.

Introducing CM3leon, a first-of-its-kind multimodal model that achieves state-of-the-art performance for text-to-image generation with 5x the compute efficiency of competitive models.

More details ➡️ https://t.co/VR12zkmLDs pic.twitter.com/jUnG7G1Fxf

— Meta AI (@MetaAI) July 14, 2023

Cómo se desempeña CM3leon en todas las tareas

De acuerdo con Meta, con las capacidades de CM3leon, las herramientas pueden producir imágenes más coherentes que siguen mejor las indicaciones de entrada.

“Muchos modelos de generación de imágenes luchan con la capacidad de recuperar formas globales y detalles locales. CM3leon tiene un fuerte desempeño en esta área. Aquí hay un vistazo a las capacidades de CM3leon en una variedad de tareas, todas realizadas con un solo modelo”, indicó Meta en un comunicado.

Generación y edición de imágenes guiadas por texto

Según meta, la generación de imágenes puede ser un desafío cuando se trata de objetos complejos o cuando la solicitud incluye muchas restricciones que deben incluirse en la salida.

“La edición de imágenes guiada por texto (por ejemplo, “cambiar el color del cielo a azul brillante”) es un desafío porque requiere que el modelo comprenda simultáneamente las instrucciones textuales y el contenido visual”, añadió Meta.

Según la compañía, CM3leon sobresale en todos los casos, como lo muestra en los ejemplos siguientes.

Texto a imagen

Dado un texto de indicación con una estructura potencialmente muy compositiva, genere una imagen coherente que siga a la indicación.

Por ejemplo, se crearon las siguientes cuatro imágenes para las indicaciones:

Un pequeño cactus con un sombrero de paja y gafas de sol de neón en el desierto del Sahara.
Una foto de primer plano de una mano humana, modelo de mano. Alta calidad.
El personaje principal de un mapache en un anime que se prepara para una batalla épica con una espada samurái. Postura de batalla. Fantasía, Ilustración.
Una señal de alto en estilo Fantasía con el texto “1991”.