L’ascesa dei modelli linguistici multimodali: LLaVA 1.5 e il suo impatto sull’intelligenza artificiale generativa
La rapida espansione dei modelli linguistici multimodali (LLM) sta aprendo un nuovo capitolo nella saga dell’intelligenza artificiale generativa. Questa storia, illustrata da GPT-4 Vision di OpenAI, assume una nuova dimensione con l’arrivo di LLaVA 1.5, una stella nascente nel mondo open source. Entriamo nel vivo di questa dinamica in cui l’innovazione si coniuga con l’accessibilità.
LLaVA 1.5: un’alternativa open source a GPT-4 Vision
Il mondo dell’intelligenza artificiale generativa è in fermento con l’emergere di modelli multimodali di grandi dimensioni (LLM), incarnati da iniziative come GPT-4 Vision di OpenAI. Questi modelli stanno rivoluzionando la nostra interazione con i sistemi di intelligenza artificiale integrando testo e immagini.
Tuttavia, la natura chiusa e commerciale di alcune di queste tecnologie potrebbe ostacolarne l’adozione universale. È in questo contesto che entra in scena la comunità open source, promuovendo il modello LLaVA 1.5 come promettente alternativa a GPT-4 Vision.
La meccanica dei LLM
Gli LLM operano attraverso un’architettura multistrato. Associano un modello pre-addestrato per codificare elementi visivi, un modello linguistico di grandi dimensioni (LLM) per decifrare e rispondere alle istruzioni dell’utente e un connettore multimodale per stabilire il collegamento tra visione e linguaggio.
La loro formazione si svolge in due fasi: un primo ciclo di allineamento visione-linguaggio, seguito da una messa a punto per rispondere alle richieste visive. Questo processo, sebbene efficiente, è spesso intensivo dal punto di vista computazionale e richiede un database ricco e accurato.
I vantaggi di LLaVA 1.5
LLaVA 1.5 utilizza il modello CLIP per la codifica visiva e Vicuna per il linguaggio. Il modello originale, LLaVA, sfruttava le versioni testuali di ChatGPT e GPT-4 per l’ottimizzazione visiva, generando così 158.000 esempi di formazione.
LLaVA 1.5 va oltre collegando il modello linguistico e il codificatore visivo attraverso un percettrone multistrato (MLP), arricchendo il proprio database di formazione con domande e risposte visive. Questo aggiornamento, che include circa 600.000 esempi, ha consentito a LLaVA 1.5 di sovraperformare altri LLM open source in 11 dei 12 benchmark multimodali.
Il futuro dei LLM open source
La demo online di LLaVA 1.5, accessibile a tutti, mostra risultati promettenti anche con un budget limitato. Tuttavia, c’è un avvertimento: l’uso dei dati generati da ChatGPT ne limita l’utilizzo a scopi non commerciali.
Nonostante questa limitazione, LLaVA 1.5 apre una finestra sul futuro dei LLM open source. Il suo rapporto costo-efficacia, la scalabilità nella generazione di dati di addestramento e l’efficacia nella messa a punto delle istruzioni visive ne fanno un preludio alle innovazioni future.
LLaVA 1.5 è solo la prima nota di una melodia che risuonerà con i progressi della comunità open source. Anticipando modelli più efficienti e accessibili, possiamo immaginare un futuro in cui la tecnologia dell’intelligenza artificiale generativa sarà disponibile a tutti, rivelando così il potenziale illimitato dell’intelligenza artificiale.