OpenAI presenta GPT-4o: su IA más avanzada disponible de forma gratuita

OpenAI ha dado un paso significativo este lunes con la presentación de GPT-4o, su modelo de lenguaje más avanzado hasta la fecha. Esta versión mejorada de su IA cuenta con una inteligencia equiparable a la de GPT-4, pero con capacidades notablemente superiores en la interpretación de audio e imágenes.

Durante la presentación de GPT-4o, Mira Murati, la directora tecnológica de la startup, explicó que este nuevo modelo estará disponible para todos los usuarios de ChatGPT. Esto implica que el chatbot no solo implementará esta tecnología en las versiones de pago, sino también en su variante gratuita.

Una de las ventajas más destacadas de GPT-4o es su capacidad para procesar audio e imágenes de manera nativa. Esto ha posibilitado que la compañía realice diversas demostraciones en vivo, incluyendo algunas con sugerencias proporcionadas por seguidores en Twitter.

Lo más notable de GPT-4o es su capacidad para interactuar de manera más natural y conversacional con los usuarios de ChatGPT utilizando la voz. Ahora, los usuarios pueden interrumpir al modelo de lenguaje en mitad de una respuesta para solicitar cambios en el prompt original, sin experimentar demoras ni problemas de latencia.

Los ingenieros de OpenAI también demostraron la capacidad de GPT-4o para interpretar en tiempo real lo que captura a través de la cámara de un smartphone. Esto permitió que ChatGPT ayudara a resolver una ecuación lineal y detectara las emociones de una persona al analizar su rostro.

Desde OpenAI anunciaron que el despliegue de GPT-4o se realizará de forma progresiva. En cuanto a ChatGPT, las capacidades de texto e imágenes de esta nueva inteligencia artificial estarán disponibles a partir de hoy para todos los usuarios, tanto gratuitos como de pago. Sin embargo, el Modo Voz de GPT-4o llegará en versión alpha a los suscriptores de ChatGPT Plus en las próximas semanas.

La «o» en GPT-4o corresponde a «omni», ya que este modelo se presenta como un omnimodelo, capaz de interactuar, combinar y ofrecer respuestas en texto, audio y vídeo. GPT-4o ha demostrado una latencia mínima al responder a solicitudes de voz, con un promedio de apenas 232 milisegundos.

En materia de seguridad, OpenAI está consciente de los posibles riesgos que las nuevas capacidades de GPT-4o pueden presentar. Por ello, la liberación de esta IA al público se realizará de manera gradual y cuidadosa. La startup también ha publicado un vídeo que muestra las limitaciones del Modo Voz de GPT-4o, resaltando la necesidad de un desarrollo continuo y una atención constante a la seguridad.

Salir de la versión móvil