NOTICIASTECNOLOGÍA

Microsoft revela Phi-3 Vision, una IA avanzada que interpreta imágenes y texto

Microsoft ha anunciado la disponibilidad de Phi-3 Mini, un modelo de inteligencia artificial ligero y potente que compite directamente con GPT-3.5. La presentación se realizó durante el evento Build 2024, donde el gigante tecnológico destacó varias novedades en su línea de modelos de lenguaje. Phi-3 Mini no fue la única revelación importante del día, ya que Microsoft también introdujo Phi-3 Vision y Phi-Silica, un modelo compacto diseñado para ejecutarse en los ordenadores Copilot+ PC.

Phi-3 Mini: Poder y Ligereza en la IA

Aunque la comunidad ya conocía bastante sobre Phi-3 Mini, quedaba por confirmar un detalle crucial: su disponibilidad. Este modelo de lenguaje, presentado hace solo unas semanas, ha captado la atención de los medios gracias a sus impresionantes características. Phi-3 Mini destaca por su capacidad para ejecutarse en dispositivos móviles y ordenadores básicos sin sacrificar potencia.

El Phi-3 Mini puede manejar 3.800 millones de parámetros. Microsoft reveló que este modelo se entrenó con cuentos infantiles que utilizan más de 3.000 palabras simples para explicar conceptos complejos. Esto resultó en una IA capaz de rivalizar con GPT-3.5, el modelo base de la primera versión de ChatGPT, y que puede operar directamente en un ordenador.

Ahora, Phi-3 Mini está disponible a través de la nube de Azure, permitiendo a los desarrolladores acceder fácilmente a sus capacidades.

Phi-3 Vision: Comprensión Multimodal

Otro gran anuncio en Build 2024 fue Phi-3 Vision, un modelo de inteligencia artificial multimodal que puede comprender tanto texto como imágenes. Este nuevo miembro de la familia Phi-3 es el primer modelo de este tipo que Microsoft lanza y puede interpretar imágenes y responder preguntas sobre ellas, similar a lo que ofrece GPT-4o, pero a una escala menor.

Esto Te Puede Interesar...  La competencia entre China y Estados Unidos se intensifica en el ámbito de la exploración espacial

Phi-3 Vision es capaz de realizar tareas de razonamiento visual, como comprender gráficos y diagramas y generar información a partir de ellos. También puede analizar imágenes del mundo real y extraer texto, aunque no puede generar imágenes como algunos modelos de OpenAI.

Lo más impresionante de Phi-3 Vision es su tamaño. Con 4.200 millones de parámetros, este modelo supera a otros más grandes en tareas de razonamiento visual, comprensión de gráficos, tablas y OCR. Microsoft diseñó esta IA para que se ejecute localmente en una amplia gama de dispositivos, incluyendo móviles y ordenadores.

Phi-Silica: La IA Integrada en Copilot+ PC

Microsoft guardó una sorpresa especial para el final: la presentación de Phi-Silica, una IA creada para ejecutarse en los ordenadores Copilot+ PC. Este modelo es el más pequeño de la familia Phi-3, con 3.300 millones de parámetros, y está optimizado para aprovechar los chips Snapdragon X Elite de Qualcomm.

Phi-Silica está diseñada para operar en la NPU de Copilot+ PC, proporcionando inferencias locales ultrarrápidas. Esta IA es notable por ser el primer modelo de lenguaje implementado localmente en Windows. Durante la presentación, Satya Nadella, director ejecutivo de Microsoft, explicó que Phi-Silica reutiliza el caché KV de la NPU y se ejecuta en la CPU para generar aproximadamente 27 tokens por segundo. Además, es energéticamente eficiente, permitiendo liberar la CPU y GPU para otros cálculos. Según Microsoft, la latencia del primer token es de 650 tokens/segundo y el modelo requiere alrededor de 1,5 vatios de energía.

Mostrar más

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba