A pocas semanas de su anuncio, xAI ha lanzado Grok-1.5V, su primer modelo multimodal de inteligencia artificial. Este modelo, desarrollado por la empresa de Elon Musk, es capaz de procesar imágenes y responder preguntas relacionadas, abriendo nuevas posibilidades para el uso de la IA en diversos campos. La disponibilidad de un SDK de muestra ha confirmado que esta innovadora tecnología ya está accesible para desarrolladores, lo que sugiere que su lanzamiento al público general podría estar próximo.
Según la documentación oficial, Grok-1.5V puede comprender y analizar documentos, diagramas científicos, cuadros, capturas de pantalla y fotografías. xAI ha publicado una gráfica que muestra las puntuaciones de Grok-1.5V en varias pruebas de rendimiento, destacando que en ciertas tareas, como la lectura de texto, interpretación de diagramas, matemáticas y comprensión del mundo real, supera a GPT-4V.
La empresa ha expresado su entusiasmo por las capacidades de Grok-1.5V para comprender el mundo físico. «Estamos particularmente entusiasmados con las capacidades de Grok para comprender nuestro mundo físico», mencionó la empresa. «Grok supera a sus pares en nuestro nuevo benchmark RealWorldQA, que mide la comprensión espacial del mundo real». Este punto de referencia evalúa las habilidades básicas de los modelos multimodales para comprender el espacio y las relaciones físicas en el entorno real.
En las pruebas iniciales, Grok-1.5V ha demostrado ser capaz de reconocer el tamaño y la orientación de los objetos, analizar y comparar espacios, e identificar texto en las imágenes para responder preguntas. xAI ha mostrado varios ejemplos prácticos de las capacidades de su nuevo modelo multimodal de inteligencia artificial. Por ejemplo, Grok puede analizar un diagrama de flujo en una pizarra y convertirlo en código fuente en Python, incluyendo comentarios. También puede identificar una tabla con valores nutricionales y responder preguntas específicas sobre calorías. Otros ejemplos incluyen la capacidad de reconocer un bosquejo y escribir un cuento, explicar un meme o analizar una fotografía.
¿Qué Ofrecen los Modelos Multimodales como Grok?
Un modelo multimodal de IA es un sistema avanzado que puede procesar e integrar información de múltiples fuentes, como texto, imágenes, audio, video o datos sensoriales. Esta capacidad les permite tener una comprensión más completa y contextualizada del mundo, similar a la de los humanos. A diferencia de los sistemas de IA tradicionales, que se enfocan en un solo tipo de datos, los modelos multimodales pueden combinar y analizar información de diversas modalidades para realizar tareas más complejas.
Por ejemplo, un modelo multimodal puede leer una pregunta, analizar una imagen relevante y generar una respuesta que combine texto e imagen. También puede generar subtítulos o descripciones que capturen mejor el contexto y la información no verbal. La creación de estos modelos requiere grandes cantidades de datos de alta calidad, lo cual puede ser un desafío para recopilar y etiquetar. Además, su entrenamiento puede ser computacionalmente intensivo, lo que requiere acceso a hardware potente.
«Avanzar tanto en nuestra comprensión multimodal como en nuestras capacidades de generación son pasos importantes para construir una inteligencia artificial general (AGI) que pueda comprender el universo», declaró xAI. «En los próximos meses, anticipamos realizar mejoras significativas en ambas capacidades, en diversas modalidades, como imágenes, audio y video.»
Grok-1.5V ya está disponible para los desarrolladores. Aunque la compañía no ha revelado la fecha exacta en que el modelo estará accesible para el público general, se ha informado que será necesario contar con una suscripción Prémium de X (Twitter) para utilizarlo.