OpenAI se embarca en la tarea de comprender el funcionamiento interno de la inteligencia artificial

La inteligencia artificial (IA) ha demostrado ser un recurso valioso para una amplia variedad de aplicaciones. Actualmente, impulsa sistemas de asistencia al conductor, como el piloto automático de Tesla, y facilita el funcionamiento de chatbots conversacionales como ChatGPT. Sin embargo, a pesar de sus sorprendentes capacidades, todavía no comprendemos completamente cómo operan estos sistemas. Esta falta de entendimiento representa un obstáculo significativo para mejorar la seguridad de los modelos que utilizamos diariamente.
En un esfuerzo por desentrañar el funcionamiento interno de GPT-4, OpenAI ha anunciado nuevos métodos que utilizan «codificadores dispersos» o «Sparse Autoencoders«. La compañía, dirigida por Sam Altman, emplea estos codificadores para identificar características y descubrir patrones que puedan ayudar a entender mejor el modelo. Hasta ahora, se han identificado 16 millones de características, una cifra que se espera aumente con el tiempo.
El desafío de comprender la «caja negra» de la IA
En el ámbito de la IA, no todo es un misterio. Existen conceptos bien definidos y claros. Utilizamos vastos conjuntos de datos (datasets) para entrenar las redes neuronales que constituyen los grandes modelos de lenguaje (LLM). Cuando estos modelos son demasiado grandes y complejos para funcionar en la infraestructura de cómputo actual, recurrimos a técnicas como «Mixture of Experts» (MoE) para dividir la capacidad del modelo en diferentes especialidades.
También somos capaces de desarrollar modelos multimodales, como Gemini 1.5 o GPT-4, que pueden procesar entradas de texto, audio e imágenes. Sin embargo, lo que ocurre dentro de cualquiera de estos modelos sigue siendo un misterio. Podemos pedir a una IA que haga un resumen de un capítulo de un libro; conoceremos la entrada (el capítulo) y la salida (el resumen), pero lo que sucede dentro de la denominada «caja negra» del modelo permanece desconocido.
No solo se trata de una caja negra, sino también de una especie de caja cerrada, donde resulta complicado investigar lo que sucede en su interior. Esto se debe a que no creamos las redes neuronales artificiales que forman parte del modelo, sino que las entrenamos mediante algoritmos. Es una tecnología impresionante que no comprendemos completamente y que, en muchos casos, termina sorprendiendo incluso a los expertos.
Según explica OpenAI, las activaciones neuronales de los modelos presentan patrones impredecibles que dificultan su estudio. Los codificadores dispersos son una herramienta para arrojar algo de luz sobre este asunto. Estos codificadores pueden recuperar decenas de millones de características de los modelos para mejorar su comprensión. Aunque muchas de estas características pueden ser abstractas o insignificantes, otras tienen el potencial de mejorar la seguridad y, en consecuencia, la calidad del modelo.
Es importante señalar que aún queda mucho trabajo por hacer, y la aplicación de los Sparse Autoencoders está en sus primeras etapas. OpenAI espera que los primeros resultados de esta solución se conviertan en recursos útiles para monitorear y ajustar el comportamiento de sus modelos avanzados. Además, OpenAI no es la única organización trabajando en este campo; Anthropic también está centrada en promover el uso de los codificadores dispersos.
Esta investigación es crucial para el futuro de la IA, ya que entender mejor los modelos nos permitirá desarrollar sistemas más seguros y eficientes. La comunidad científica y tecnológica sigue explorando nuevas formas de desentrañar estos complejos sistemas, con la esperanza de que, eventualmente, podamos comprender plenamente cómo funcionan y aprovechar todo su potencial.



