La multimodalidad en Inteligencia Artificial da un nuevo paso: Google anunció que Bard puede crear imágenes realistas y amplía su alcance para todos

Google anunció que Bard ya puede crear imágenes fotorrealistas de alta calidad en base a simples indicaciones escritas por el usuario y así hacer realidad cualquier idea. Además, presentaron nuevas actualizaciones para mejorar la capacidad de la herramienta: desde corroborar respuestas arrojadas en conversaciones y la disponibilidad de Gemini Pro en todos los idiomas.

La nueva funcionalidad de creación de imágenes se lanzó primero para usuarios de Estados Unidos. Por ese motivo para utilizarla desde otros países lo aconsejable es instalarse una VPN que ayuda a mostrar a mostrar que la computadora está localizada como si estuviese en norteamérica.

El sueño de Yoko Ono está disponible para cualquier persona
Cuando se fundó el arte conceptual se buscó darle un impulso a la democratización de las ideas: Para los fundadores de ese movimiento cualquier persona tiene algo único para decirle al mundo por mas que no sepa dibujar o componer música. Por eso realizaron obras de arte donde lo principal era mostrar un concepto no una habilidad artística. La obra de Yoko Ono lo muestra cabalmente. Por ejemplo, su obra de un tablero de ajedrez con piezas blancas de ambos lados.

Cualquiera puede comprar dos tableros de ajedrez para armar uno nuevo sólo de piezas blancas. Lo importante era el mensaje que transmitía esa obra: ¿Quién te pinta para que se cree el enfrentamiento de las blancas contra las negras?

La IA Generativa esta avanzando en el sentido de que lo importante pasan a ser los conceptos. Si tenemos la idea la IA nos ayudará a realizarlo. Pero para eso requieren Inteligencias Artificiales que entren en lo que se llama multimodalidad. Esto es que puedan trabajar con diversas fuentes de datos sean texto, imágenes o audio. Ahora en Google anunciaron que Bard podrá generar una amplia variedad de imágenes personalizadas a partir de una breve descripción. Por ejemplo, se le podrá pedir que arme una imagen de un tablero de ajedrez, y ofrecerá varios resultados fotorrealistas de alta calidad entre las cuales se puede elegir la que mejor se adecúe a lo imaginado.

La nueva funcionalidad surge con la integración de la tecnología de procesamiento de texto a imagen más avanzada de la compañía “Imagen 2”, que permite a todas las personas repensar la forma de hacer las cosas y recibir ayuda creativa con Bard. Estará disponible en inglés en la mayoría de los países y territorios donde ya funciona la herramienta.

Para ayudar a todas las personas a diferenciar las imágenes originales de las generadas con Inteligencia Artificial, Bard emplea SynthID, una herramienta desarrollada por Google DeepMind, que agrega una marca de agua imperceptible directamente en los píxeles de las nuevas imágenes. De esta forma se comienza a trabajar en una de los temas que más preocupa a la industria: cómo diferenciar objetos digitales realizados con IA.

IA generativa con Bard — Diferentes estilos de imágenes creadas con Bard

Combate a la información falsa
Les guste a los usuarios o no, lo cierto es que en el mar digital cada vez es mas complejo darse cuenta de si la información es falsa o no. Dentro de esta problemática en Google presentaron una nueva función “Doble verificación” para corroborar todas las respuestas que Bard ofrezca, que estará disponible en más de 40 idiomas y 230 países y territorios. ¿Cómo podrá utilizarse? Al iniciar una conversación, debajo de la respuesta aparecerá el ícono “G” que permitirá Buscar en Google las respuestas generadas por Bard y profundizar en esa información, así como identificar distintas fuentes que validen dichos datos. También se podrá hacer clic en frases resaltadas para obtener información que respalde o contradiga lo que responde.

Llegó Gemini Pro en todos los idiomas

A finales del 2023, la compañía anunció la integración de Gemini Pro a Bard en inglés, con el objetivo de potenciar las habilidades de comprensión, razonamiento, resumen y codificación de la herramienta. Ahora, el modelo de lenguaje multimodal más avanzado hasta el momento estará disponible en todos los idiomas (incluido el español 🥳).

Recientemente, uno de los principales líderes de modelos lingüísticos y asistentes de IA en todos los idiomas: la Organización de grandes sistemas de modelo (sus siglas en inglés, LMSYS), realizó una tabla de posiciones que clasifica modelos de IA según su rendimiento. Bard con Gemini Pro ocupó el segundo puesto en el ranking, además se reveló que la herramienta está evolucionando a pasos agigantados gracias a las constantes mejoras.

Si bien Gemini Pro es para un uso profesional cabe recordar que Bard es una herramienta gratuita, accesible globalmente y útil para todo tipo de proyecto, desde ayuda con tareas cotidianas hasta grandes proyectos.

La multimodalidad en Inteligencia Artificial da un nuevo paso: Google anunció que Bard puede crear imágenes realistas y amplía su alcance para todos

La inclusión de generación de imágenes era una de las características más esperadas. El sueño de convertirse en un artista para darle un mensaje al mundo nunca estuvo más cerca.

Tags

Top 10: Moisés Caicedo entre los jugadores sudamericanos más valiosos de las eliminatorias

En el camerino con Segundo Alejandro Castillo

Sufrieron, pero hoy sus quesos facturan medio millón

10 sitios web para vender fotografías e imágenes en línea

La primera mujer gerente General de la Bolsa de Valores de Guayaquil

Más noticias

Se conocen nuevos detalles de la tan esperada Nintendo Switch 2

Cambio rotundo en YouTube: por qué se habla de una "inflación de visualizaciones"

Cómo la IA está cambiando las pruebas creativas de anuncios

US$ 3 millones para una nueva plataforma educativa

DeepSeek lanzó una nueva actualización de su modelo: ¿cuáles son las mejoras que incluye?

Por qué esta imagen hecha con IA acaba de marcar un hito histórico y marca el inicio de un nuevo entendimiento multimodal

EA Sports enloquece a los fanáticos de la F1 con el anuncio nuevo juego: cuándo se estrenará y todos los detalles

La "Caja de Pandora" que abrió OpenAI con sus nuevas imágenes de inteligencia artificial