El diseñador Colin Dunn disfruta cuando los servicios de generación de imágenes con inteligencia artificial, como Midjourney y Dall-E, parecen fallar y producen algo al azar, como cuando pides la imagen de un grupo de personas caminando juntas y te presentan, en cambio, una figura solitaria que se aleja en la distancia. Dunn siente que es como tener un compañero de trabajo con el que pimponeas un montón de ideas extrañas antes de dar con la correcta.
La startup de Dunn, Visual Electric Co., ha desarrollado una novedosa interfaz web para aprovechar ese proceso creativo. Los generadores de imágenes a partir de texto muestran una imagen única en una ventana de chat, pero la aplicación de Dunn arroja varias sugerencias y los resultados se guardan en filas y se organizan al lado o debajo de la imagen que están modificando, creando una galería de miniaturas. El resultado es un collage de bocetos que permite al usuario explorar varias ideas creativas basadas en la forma en que la IA interpretó sus sucesivas instrucciones, para bien o para mal.
Este proceso de trabajo busca inspirar una “exploración más dispersa y desordenada”, explica Dunn, exdiseñador de Dropbox y Facebook. Visual Electric tiene su sede en Sausalito, California, y tiene como inversor a Sequoia Capital. La misión de la herramienta no es lograr el resultado esperado con el menor número posible de clics, sino más bien dejar que la IA se suelte el pelo y se desboque de maneras sorprendentes. Tiene funciones para reescribir automáticamente instrucciones con descripciones más inusuales, alterar la estética con estados de ánimo y ajustar la libertad con la que la computadora interpretará tus palabras.
En otras palabras, parte del objetivo de Visual Electric es fomentar las “alucinaciones”, el término pseudocientífico para referirse a los modelos de IA que se enredan en sus propios datos de entrenamiento e inventan cosas. Los ingenieros han tratado de evitar que los chatbots tengan alucinaciones desde mucho antes del lanzamiento público de ChatGPT a fines de 2022, pero este chatbot y otros similares todavía suelen mezclar “hechos” inventados en las respuestas que dan a los usuarios.
Si la gente va a confiar en grandes modelos de lenguaje como el que impulsa ChatGPT para realizar búsquedas en línea, redactar ensayos o darle otros usos, estas alucinaciones son una posible desventaja. Mientras el público se asombraba con la IA en 2023, la tortuosa relación de la tecnología con los hechos inspiró no pocas proclamas de que los delirios de las computadoras podrían amenazar la idea misma de la verdad.
La propensión de un sistema de IA a alucinar se ha convertido en un parámetro de referencia de su desempeño. Galileo, una compañía que ayuda a clientes empresariales a perfeccionar sus aplicaciones de IA generativa, ha creado un Índice de Alucinación, que clasifica la precisión o exactitud de los sistemas de IA de empresas como Hugging Face, Meta Platforms y OpenAI. El CEO de Galileo, Vikram Chatterji, dice que las empresas de industrias que van desde las finanzas hasta la atención médica están particularmente interesadas en tener un “control extremo” sobre sus productos de IA orientados al consumidor.
Debido a la complejidad de la IA moderna, los expertos no están seguros de que este problema pueda solucionarse por completo. Por otra parte, quizás no sea necesario solucionar todos los problemas. “Las alucinaciones son a veces una auténtica funcionalidad o atributo, se llama creatividad; otras veces, son una falla”, dijo recientemente el director ejecutivo de Microsoft, Satya Nadella.
El próximo año, un creciente número de desarrolladores pretende aprovechar la magia de esos errores y delirios. Dunn lo compara con las formas quizás arriesgadas en las que algunos humanos han tratado de utilizar sustancias químicas para maximizar sus impulsos artísticos. “Un viaje con LSD es una metáfora muy adecuada”, bromea. “Si el modelo sólo hiciera exactamente lo que le pides, entonces no es un compañero creativo”.
Anastasis Germanidis, director de tecnología de Runway AI Inc., un generador de videos con IA valuado en mil 500 millones de dólares, dice que es necesario cierto grado de “facticidad” (es decir, un clip de un gato debe presentar un gato, no un perro), pero que su equipo no quiere reprimir la imaginación.
Germanidis también descubrió que los creativos profesionales están jugando con el programa, proporcionando instrucciones intrincadas para provocar visiones surrealistas. El cineasta Paul Trillo, por ejemplo, creó con Runway el cortometraje Thank You for Not Answering, sacándole provecho a los efectos más psicodélicos del programa, con escenas de metros bajo el agua y rasgos faciales que parecían hechos con la técnica de plastimación o claymation. Los defectos fueron los que lo hicieron tan fascinante. En una entrevista con el New Yorker, que describía el cortometraje como “una cruza de Edward Hopper y David Lynch”, Trillo declaró que la IA tomó decisiones cinematográficas que él no habría tomado y que “se sintió como uno de esos sueños en los que puedes volar”.
Otros desarrolladores están intentando limitar sus sistemas de IA con “microdosis” de alucinación. Inworld AI, que ayuda a los desarrolladores de videojuegos a crear personajes informáticos interactivos, ha desarrollado una función de “cuarta pared” para restringir las formas en que los personajes reaccionan ante un jugador humano. Estos personajes de IA se alimentan con rasgos de personalidad, emociones, recuerdos y ambiciones, que pueden conducir a comportamientos intrigantes y únicos. Pero el cofundador y director de producto Kylan Gibbs dice que si se salen demasiado del guion, pueden arruinar la inmersión.
Sin embargo, señala que algunos desarrolladores están desactivando la función de la cuarta pared, especialmente en juegos más pequeños tipo Dungeons & Dragons donde el universo no está dictado por décadas de canon narrativo.
En ese sentido, no se trata tanto de que la tolerancia a las alucinaciones esté cambiando sino su definición. Los creativos hablan de la alucinación más en el sentido antropomórfico que como una máquina que inventa falsedades. Los contratiempos al procesar una canción o una campaña de marketing generadas por una máquina pueden ser exactamente lo que el usuario estaba buscando.
Dunn, de Visual Electric, a menudo se encuentra en esa situación cuando genera gráficos con IA. Con instrucciones cada vez más largas, la computadora se desvía de las indicaciones.
“Tu primera reacción es: ‘Esto es terrible, esto es está mal’”, dice Dunn; pero luego, después de mirarlo durante unos minutos, a menudo se da cuenta: la máquina tiene razón.
Lee aquí la versión más reciente de Businessweek México: