OpenAI ha appena rilasciato GPT-4, la nuova versione del modello di linguaggio che alimenta ChatGPT, il suo celebre robot conversazionale. Presentato come più preciso e affidabile, riesce anche ad interpretare le immagini.
Dopo mesi di rumor e speculazioni, lo scorso 14 marzo OpenAI ha ufficializzato GPT-4, la nuova versione del suo linguaggio, il “motore” dietro la rivoluzionaria AI di ChatGPT, il bot conversazionale che ha fatto tanto parlare di sé sin dal suo arrivo nel novembre 2022, che anima anche il generatore d’immagini DALL-E. L’azienda ha rilasciato questa nuova versione tramite un aggiornamento che migliorerà la capacità dell’AI introducendo novità molto promettenti, che abbonati al programma a pagamento ChatGPT Plus possono già utilizzare. Come dichiarato da OpenAI in un comunicato: “GPT-4 è un grande modello multimodale, meno dotato dell’uomo in molti scenari della vita reale, ma più performante dell’uomo in molti contesti professionali e accademici". La start-up promette che con GPT-4, il suo chatbot diventerà “più creativo e collaborativo che mai. Cosa ancora più importante, l’AI di Microsoft su Bing si basa proprio su GPT-4.
GPT è l’acronimo di Generative Pre-Trained Transformer (ossia Trasformatore Generativo di Pre-addestramento) e indica un linguaggio generativo che si basa sul modello di rete neurale che imita il sistema neurale umano grazie a degli algoritmi. Questo sistema di intelligenza artificiale viene addestrato dal deep learning, che permette di analizzare enormi volumi di dati (da internet nel caso di GPT). Questa combinazione gli permette quindi di generare del testo “ragionando”, come se fosse un essere umano.
GPT-3 è la terza generazione di questa tecnologia e rappresenta uno dei modelli di generatore di testi in AI più evoluti fino ad oggi. Le versioni precedenti, GPT-1 e GPT-2, contavano 1,5 milioni di parametri, che definivano il processo di apprendimento dell’AI e strutturavano i risultati ottenuti. Il numero di parametri di un modello AI è generalmente utilizzato come misura delle prestazioni: più parametri sono presenti, più il modello è potente, fluido e prevedibile. GPT-3 è stato un vero balzo in avanti in questo senso, poiché dispone di 175 miliardi di parametri. Per quanto riguarda GPT-4, OpenAI non ha ancora voluto rivelare il numero esatto di parametri del modello.
GPT-4 riprende le basi di GPT-3 e può dunque generare, tradurre e riassumere dei testi, rispondere a domande, essere usato come chatbot e generare dei contenuti su richiesta. Questo modello porta con sé interessanti novità e diversi miglioramenti, come ha spiegato la stessa OpenAI sul proprio sito ufficiale.
Attenzione tuttavia a non farsi prendere dall’effetto wow! OpenAi ha infatti dichiarato che “in una conversazione informale, la distanza tra GPT-3.5 e GPT-4 può essere sottile. In più, sembrerebbe che la base di dati non sia ancora aggiornata e sarebbe ancora ferma al 2021.
GPT-4: l’arrivo delle immagini
Una delle novità più interessanti è che questo modello di linguaggio diviene multimodale. Infatti, grazie ad una collaborazione con la start-up Be My Eyes, GPT-4 può analizzare e rispondere a richieste contenenti del testo e delle immagini, mentre GPT-3 si fermava soltanto agli scritti. Come dichiarato dal cofondatore di OpenAI, Greg Brockman al The Guardian: «GPT-4 può accettare in maniera flessibile delle richieste che frappongono immagini e testo in modo arbitrario, un po’ come un documento». In parole semplici, l’utente può indicare al nuovo modello un’immagine assieme ad una richiesta. Ad esempio, se l’utente inserisce nel chatbot uno schizzo fatto a mano che descrive in dettaglio il progetto di un sito web, GPT-4 genera una risposta dettagliata che spiega le tappe da seguire per realizzare il sito, ma sempre generando testo.
Il New York Times ha fatto diversi test con GPT-4. Il giornalista ha inviato all’AI una foto del contenuto del suo frigo chiedendo cosa potesse cucinare con gli alimenti presenti. L’intelligenza artificiale ha proposto diverse ricette con gli ingredienti disponibile. Soltanto una ricetta (un wrap) necessitava di un ingrediente non presente in frigo. In un altro esempio, una persona ipovedente ha inviato all’AI una foto con due camicie dello stesso modello, ma di colore differente. L’AI ha indicato quale delle due è rossa. Secondo OpenAI, “GPT-4 è capace di generare lo stesso livello di contesto e di comprensione di un essere umano”, spiegando il mondo che circonda l’utente, riassumendo pagine web piene di informazioni o rispondendo ad esempio a domande su ciò che “vede”. Questa opzione non è disponibile al momento e continua ad essere testata da Be My Eyes, che utilizza GPT-4 per un prodotto di accessibilità visiva. Tuttavia dovrebbe essere disponibile tra qualche settimana.
GPT-4: un’AI più creativa e collaborativa
Secondo OpenAI, GPT-4 è più “creativa e collaborativa” del predecessore, ma anche rispetto a tutti gli altri sistemi di AI esistenti. Inizialmente, il nuovo modello di linguaggio genera risposte più precise in modo più veloce, senza andare in crash a causa della grande mole di richieste simultanee fatte dagli utenti. Inoltre, la dimensione del testo da usare come query è stata aumentata, arrivando fino a 25000 parole, contro le circa 3000 parole di GPT-3.5. Si possono quindi inviare testi più grandi da analizzare (come un articolo scientifico, un racconto, ecc.) e ciò permette all’AI di risolvere subito i problemi di redazione o di sintesi.
OpenAI afferma inoltre che “GPT-4 è più affidabile, creativa e capace di generare istruzioni con più sfumature rispetto a GPT-3.5”. Questa versione del modello di linguaggio funzionerà quindi in modo migliore nei compiti che richiedono creatività o ragionamento avanzato. Durante la sua dimostrazione, Greg Brokeman ha chiesto all’AI di riassumere una sezione di un articolo di blog sul blog usando solo parole che iniziano con "g". L’AI potrà inoltre essere utilizzata per attività come una composizione musicale, la scrittura di una sceneggiatura e la riproduzione di uno stile di un autore.
Migliori risultati nei testi
Secondo i risultati pubblicati da OpenAI, GPT-4 ha fatto grandi passi avanti per quanto riguarda la precisione delle risposte, diminuendo gli errori grossolani e i ragionamenti illogici riscontrati su ChatGPT con GPT 3.5. L’azienda ha fatto fare al suo modello di linguaggio dei test di biologia, di diritto, di economia e di letteratura. GPT-4 ha naturalmente sorpassato di gran lunga il suo predecessore, com’è possibile notare dal grafico in basso (i risultati in blu sono di GPT-3.5 e in verde di GPT-4).
Tuttavia, si può notare che, anche se sono presenti netti miglioramenti, l’AI non ha ancora qualche problema con i test che richiedono creatività, come le lingue e la letteratura inglese. Dall’altra parte ha però superato l’esame di avvocato negli Stati Uniti, con un punteggio del 10% vicino a quello dei migliori candidati. Là dove GPT-3 si posizionava circa al 10% rispetto ai peggiori. GPT-4 ottiene anche ottimi risultati in molte lingue - l'inglese è in un certo senso la sua lingua "madre"-, con un livello di precisione dell'84,1% in italiano, 83,7% in spagnolo e 83,6 % in francese. Questi risultati significano che gli utenti otterranno risposte di qualità superiore. Ciò significa che gli utenti che parlano altre lingue diverse dall’inglese possono ottenere risultati migliori.
Un modello di linguaggio più sicuro
OpenAI ha lavorato a lungo per rendere GPT-4 più “sicuro” ed evitare al massimo le possibili deviazioni. Sarà l’82% meno su Pertanto, rispetto a GPT-3.5, ci dovrebbero essere l'82% in meno di probabilità di rispondere alle richieste di contenuti non autorizzati, come ad esempio la creazione di malware. Allo stesso modo, la sua accuratezza è stata migliorata, poiché dovrebbe avere 40% di probabilità in più di offrire una risposta esatta rispetto alla versione precedente.
Purtroppo però, tutti i problemi non possono essere considerati risolti. Infatti, l’AI ha sempre la tendenza a inventare, rilasciando false informazioni. Per questo motivo viene ricordato che “bisogna essere prudenti quando si utilizzano i risultati di un modello linguistico, in particolare in contesti rischiosi. GPT-4 presenta dei pericoli simili a quelli dei modelli precedenti, come la generazione di consigli dannosi, codici dannosi o informazioni inesatte.
OpenAi ha già lavorato con numerosi studiosi per creare nuovi servizi e applicazioni da integrare in GPT-4. È il caso di Duolingo, Be My Eyes, Stripe, Morgan Stanley, Khan Academy o il governo dell’Islanda. Gli sviluppatori possono iscriversi alla lista d’attesa per poter accedere all’API dell’azienda. Per quanto riguarda il grande pubblico, è già disponibile un’anteprima di GPT-4, integrata nel chatbot di Bing per Microsoft. Infatti, durante l’annuncio della sua AI Prometheus, la società non aveva indicato con precisione su quale versione del modello di linguaggio si sarebbe basata, spiegando soltanto di utilizzare “<ital>l’apprendimento e i progressi chiave di ChatGPT e GPT-3.5”. Tutto è ormai diventato chiaro con l’ultimo post di Microsoft. Per alcuni ricercatori e informatici, è la presenza di GPT-4 ad aver causato le derive dell’AI. Bisogna ricorda che numerosi utenti sono riusciti a violare – anche involontariamente – il motore di ricerca, e ciò ha portato il chatbot a moltiplicare gli errori e persino ad insultare gli utenti in chat. Nella troppa fretta di integrare l'intelligenza artificiale in Bing e superare Google, Microsoft avrebbe creato errori nello sviluppo dei filtri di sicurezza, costringendola a sistemare le cose in seguito, rilasciando aggiornamenti quotidiani e applicando limiti di utilizzo a Bing.
In ogni caso, la società di Redmond ha intenzione di rivelare maggiori informazioni riguardo l’integrazione di GPT-4 nei suoi prodotti e ha spiegato che Bing otterrà miglioramenti in quanto OpenAI “rilascerà degli aggiornamenti per GPT-4 e non solo”, grazie ai quali “avremo modelli multimodali che offriranno possibilità completamente diverse, come ad esempio l’arrivo dei video”. Oltre ai miglioramenti di OpenAI verranno inoltre aggiunti dei “propri aggiornamenti basati sui feedback della community. La speranza è che questa nuova integrazione crei meno problemi rispetto al passato.
Foto: © OpenAI.