A ascensão dos modelos de linguagem multimodais: LLaVA 1.5 e seu impacto na inteligência artificial generativa
A rápida expansão dos modelos de linguagem multimodais (LLM) está abrindo um novo capítulo na saga da inteligência artificial generativa. Esta história, ilustrada pela Visão GPT-4 da OpenAI, assume uma nova dimensão com a chegada do LLaVA 1.5, uma estrela em ascensão no mundo do código aberto. Vamos mergulhar no cerne desta dinâmica onde a inovação se alia à acessibilidade.
LLaVA 1.5: Uma alternativa de código aberto ao GPT-4 Vision
O mundo da inteligência artificial generativa está agitado com o surgimento de grandes modelos multimodais (LLM), incorporados por iniciativas como a Visão GPT-4 da OpenAI. Esses modelos estão revolucionando nossa interação com sistemas de IA ao integrar texto e imagens.
No entanto, a natureza fechada e comercial de algumas destas tecnologias pode dificultar a sua adoção universal. É neste contexto que a comunidade open source entra em cena, promovendo o modelo LLaVA 1.5 como uma alternativa promissora à Visão GPT-4.
A mecânica dos LLMs
Os LLMs operam por meio de uma arquitetura multicamadas. Eles associam um modelo pré-treinado para codificar elementos visuais, um modelo de linguagem grande (LLM) para decifrar e responder às instruções do usuário e um conector multimodal para estabelecer a ligação entre visão e linguagem.
Seu treinamento é realizado em duas etapas: uma primeira rodada de alinhamento visão-linguagem, seguida de ajuste fino para responder às solicitações visuais. Este processo, embora eficiente, é muitas vezes intensivo em termos computacionais e requer uma base de dados rica e precisa.
As vantagens do LLaVA 1.5
LLaVA 1.5 usa o modelo CLIP para codificação visual e Vicuna para linguagem. O modelo original, LLaVA, aproveitou as versões em texto do ChatGPT e GPT-4 para ajuste visual, gerando assim 158.000 exemplos de treinamento.
O LLaVA 1.5 vai além ao conectar o modelo de linguagem e o codificador visual através de um perceptron multicamadas (MLP), enriquecendo seu banco de dados de treinamento com perguntas e respostas visuais. Esta atualização, que inclui aproximadamente 600.000 exemplos, permitiu que o LLaVA 1.5 superasse outros LLMs de código aberto em 11 dos 12 benchmarks multimodais.
O futuro dos LLMs de código aberto
A demonstração online do LLaVA 1.5, acessível a todos, mostra resultados promissores mesmo com um orçamento limitado. Porém, há uma ressalva: a utilização dos dados gerados pelo ChatGPT restringe seu uso a fins não comerciais.
Apesar desta limitação, o LLaVA 1.5 abre uma janela para o futuro dos LLMs de código aberto. Sua relação custo-benefício, escalabilidade na geração de dados de treinamento e eficácia no ajuste fino de instruções visuais fazem dele um prelúdio para as inovações que estão por vir.
LLaVA 1.5 é apenas a primeira nota de uma melodia que irá ressoar com os avanços da comunidade de código aberto. Ao antecipar modelos mais eficientes e acessíveis, podemos imaginar um futuro onde a tecnologia generativa de IA estará disponível para todos, revelando assim o potencial ilimitado da inteligência artificial.