¡Increíble! LLaVA 1.5 revoluciona el mundo: ¡Las alternativas open source a GPT-4 Vision ya están aquí!

El auge de los modelos de lenguaje multimodales: LLaVA 1.5 y su impacto en la inteligencia artificial generativa

La rápida expansión de los modelos de lenguaje multimodales (LLM) está abriendo un nuevo capítulo en la saga de la inteligencia artificial generativa. Este relato, ilustrado por GPT-4 Vision de OpenAI, adquiere una nueva dimensión con la llegada de LLaVA 1.5, una estrella en ascenso en el mundo del código abierto. Adentrémonos en el corazón de esta dinámica donde la innovación se combina con la accesibilidad.

LLaVA 1.5: Una alternativa de código abierto a GPT-4 Vision

El mundo de la inteligencia artificial generativa está en efervescencia con la aparición de los grandes modelos multimodales (LLM), encarnados por iniciativas como GPT-4 Vision de OpenAI. Estos modelos están revolucionando nuestra interacción con los sistemas de IA al integrar texto e imágenes.

Sin embargo, la naturaleza cerrada y comercial de algunas de estas tecnologías puede obstaculizar su adopción universal. Es en este contexto que la comunidad de código abierto entra en escena, impulsando el modelo LLaVA 1.5 como una alternativa prometedora a GPT-4 Vision.

La mecánica de los LLM

Los LLM funcionan mediante una arquitectura multicapa. Asocian un modelo pre-entrenado para codificar los elementos visuales, un gran modelo de lenguaje (LLM) para descifrar y responder a las instrucciones del usuario, y un conector multimodal para establecer el vínculo entre la visión y el lenguaje.

Su entrenamiento se lleva a cabo en dos etapas: una primera ronda de alineación visión-lenguaje, seguida de un ajuste fino para responder a las solicitudes visuales. Este proceso, aunque eficiente, a menudo requiere muchos recursos computacionales y una base de datos rica y precisa.

Las ventajas de LLaVA 1.5

LLaVA 1.5 utiliza el modelo CLIP para la codificación visual y Vicuna para el lenguaje. El modelo original, LLaVA, aprovechaba las versiones de texto de ChatGPT y GPT-4 para el ajuste visual, generando así 158,000 ejemplos de entrenamiento.

LLaVA 1.5 va más allá al conectar el modelo de lenguaje y el codificador visual a través de un perceptrón multicapa (MLP), enriqueciendo su base de datos de entrenamiento con preguntas y respuestas visuales. Esta actualización, que incluye aproximadamente 600,000 ejemplos, ha permitido a LLaVA 1.5 superar a otros LLM de código abierto en 11 de los 12 puntos de referencia multimodales.

El futuro de los LLM de código abierto

La demostración en línea de LLaVA 1.5, accesible para todos, muestra resultados prometedores incluso con un presupuesto limitado. Sin embargo, existe una advertencia: el uso de los datos generados por ChatGPT restringe su uso a fines no comerciales.

A pesar de esta limitación, LLaVA 1.5 abre una ventana al futuro de los LLM de código abierto. Su rentabilidad, escalabilidad en la generación de datos de entrenamiento y eficacia en el ajuste de instrucciones visuales lo convierten en un preludio de las innovaciones por venir.

LLaVA 1.5 es solo la primera nota de una melodía que resonará al ritmo de los avances de la comunidad de código abierto. Al anticipar modelos más eficientes y accesibles, podemos vislumbrar un futuro en el que la tecnología de IA generativa esté al alcance de todos, revelando así el potencial ilimitado de la inteligencia artificial.

Share your opinion

es_ESSpanish