Grok, la última creación de Elon Musk y X, ahora es capaz de reconocer imágenes

Gabriela Navarro Redactora May-Mar-AMÚltima actualización: May-Jue-PM

0 273 2 minutos de lectura

Grok, la última creación de Elon Musk y X, ahora es capaz de reconocer imágenes 1 — #image_title

A pocas semanas de su anuncio, xAI ha lanzado Grok-1.5V, su primer modelo multimodal de inteligencia artificial. Este modelo, desarrollado por la empresa de Elon Musk, es capaz de procesar imágenes y responder preguntas relacionadas, abriendo nuevas posibilidades para el uso de la IA en diversos campos. La disponibilidad de un SDK de muestra ha confirmado que esta innovadora tecnología ya está accesible para desarrolladores, lo que sugiere que su lanzamiento al público general podría estar próximo.

Según la documentación oficial, Grok-1.5V puede comprender y analizar documentos, diagramas científicos, cuadros, capturas de pantalla y fotografías. xAI ha publicado una gráfica que muestra las puntuaciones de Grok-1.5V en varias pruebas de rendimiento, destacando que en ciertas tareas, como la lectura de texto, interpretación de diagramas, matemáticas y comprensión del mundo real, supera a GPT-4V.

La empresa ha expresado su entusiasmo por las capacidades de Grok-1.5V para comprender el mundo físico. «Estamos particularmente entusiasmados con las capacidades de Grok para comprender nuestro mundo físico», mencionó la empresa. «Grok supera a sus pares en nuestro nuevo benchmark RealWorldQA, que mide la comprensión espacial del mundo real». Este punto de referencia evalúa las habilidades básicas de los modelos multimodales para comprender el espacio y las relaciones físicas en el entorno real.

En las pruebas iniciales, Grok-1.5V ha demostrado ser capaz de reconocer el tamaño y la orientación de los objetos, analizar y comparar espacios, e identificar texto en las imágenes para responder preguntas. xAI ha mostrado varios ejemplos prácticos de las capacidades de su nuevo modelo multimodal de inteligencia artificial. Por ejemplo, Grok puede analizar un diagrama de flujo en una pizarra y convertirlo en código fuente en Python, incluyendo comentarios. También puede identificar una tabla con valores nutricionales y responder preguntas específicas sobre calorías. Otros ejemplos incluyen la capacidad de reconocer un bosquejo y escribir un cuento, explicar un meme o analizar una fotografía.

Esto Te Puede Interesar... ¿Qué significan las palabras de la Generación Z? Así hablan ahora

¿Qué Ofrecen los Modelos Multimodales como Grok?

Un modelo multimodal de IA es un sistema avanzado que puede procesar e integrar información de múltiples fuentes, como texto, imágenes, audio, video o datos sensoriales. Esta capacidad les permite tener una comprensión más completa y contextualizada del mundo, similar a la de los humanos. A diferencia de los sistemas de IA tradicionales, que se enfocan en un solo tipo de datos, los modelos multimodales pueden combinar y analizar información de diversas modalidades para realizar tareas más complejas.

Por ejemplo, un modelo multimodal puede leer una pregunta, analizar una imagen relevante y generar una respuesta que combine texto e imagen. También puede generar subtítulos o descripciones que capturen mejor el contexto y la información no verbal. La creación de estos modelos requiere grandes cantidades de datos de alta calidad, lo cual puede ser un desafío para recopilar y etiquetar. Además, su entrenamiento puede ser computacionalmente intensivo, lo que requiere acceso a hardware potente.

«Avanzar tanto en nuestra comprensión multimodal como en nuestras capacidades de generación son pasos importantes para construir una inteligencia artificial general (AGI) que pueda comprender el universo», declaró xAI. «En los próximos meses, anticipamos realizar mejoras significativas en ambas capacidades, en diversas modalidades, como imágenes, audio y video.»

Grok-1.5V ya está disponible para los desarrolladores. Aunque la compañía no ha revelado la fecha exacta en que el modelo estará accesible para el público general, se ha informado que será necesario contar con una suscripción Prémium de X (Twitter) para utilizarlo.

Gabriela Navarro Redactora May-Mar-AMÚltima actualización: May-Jue-PM

0 273 2 minutos de lectura

Grok, la última creación de Elon Musk y X, ahora es capaz de reconocer imágenes

¿Qué Ofrecen los Modelos Multimodales como Grok?

Deja una respuesta Cancelar la respuesta

Los 15 errores que te impiden bajar de Peso , GUIA 2024 PARA ADELGAZAR GRATIS

ACNÉ | Que es el Acné?

Panamá y China alcanzan consenso para renovar el Acuerdo de Transporte Marítimo

La inusual incursión en el fútbol: La historia de ‘La Barbie’, exjefe narco, dueño del Club Atlético Veragüense en la Liga Panameña de Fútbol

Ricardo Martinelli busca revocar con Recurso de Casación la condena por el caso New Business mientras denuncia irregularidades procesales

Éxito en el Home Port: Más de 6 mil turistas llegan a Panamá a través de los cruceros El Viking Mars y el Norwegian Joy

Emprendedora latina revoluciona la comunicación para personas sordas con la aplicación Sign-Speak basada en Inteligencia Artificial

Fuerte Crecimiento en las Utilidades Bancarias en el Centro Bancario Internacional: Alza del 50.8% a Octubre de 2023

¿Qué Ofrecen los Modelos Multimodales como Grok?

Microsoft revela Phi-3 Vision, una IA avanzada que interpreta imágenes y texto

Tres asesinatos en San Miguelito desatan preocupación por la inseguridad

Publicaciones relacionadas

MiAmbiente pide no alimentar a los cocodrilos para evitar accidentes

FIFA investigará los incidentes tras la final del Mundial 2026 entre España y Argentina

IDAAN destituye a funcionario por presunto uso indebido de un vehículo oficial

Molineros panameños piden crear un comité técnico para proteger la producción de arroz ante El Niño

Deja una respuesta Cancelar la respuesta

Los 15 errores que te impiden bajar de Peso , GUIA 2024 PARA ADELGAZAR GRATIS

ACNÉ | Que es el Acné?

Panamá y China alcanzan consenso para renovar el Acuerdo de Transporte Marítimo

La inusual incursión en el fútbol: La historia de ‘La Barbie’, exjefe narco, dueño del Club Atlético Veragüense en la Liga Panameña de Fútbol

Ricardo Martinelli busca revocar con Recurso de Casación la condena por el caso New Business mientras denuncia irregularidades procesales

Éxito en el Home Port: Más de 6 mil turistas llegan a Panamá a través de los cruceros El Viking Mars y el Norwegian Joy

Emprendedora latina revoluciona la comunicación para personas sordas con la aplicación Sign-Speak basada en Inteligencia Artificial

Fuerte Crecimiento en las Utilidades Bancarias en el Centro Bancario Internacional: Alza del 50.8% a Octubre de 2023