La ricerca nell’epoca di ChatGPT

Con tutto il clamore che ha comprensibilmente generato, acquisendo il titolo di “rivoluzionario”[1], “una pietra miliare”[2] e la più grande minaccia di sempre in diversi ambiti, che vanno dall’istruzione alla legislazione, ChatGPT ha rapidamente superato la necessità di essere presentato. Per chi non avesse ancora affrontato questa discussione, ChatGPT è un cosiddetto Large Language Model (LLM) che recentemente ha stupito il mondo intero per la sua capacità di emulare le abilità conversazionali umane. Sviluppato da OpenAI con il supporto di Microsoft, il chatbot è diventato il sito web più veloce a raggiungere 1 milione prima e 100 milioni di utenti poi nella storia[3]. Ha scatenato reazioni fiammeggianti nella comunità scientifica, nei non addetti ai lavori e nei concorrenti come Google per un motivo facilmente comprensibile: ha fatto percepire a tutti una svolta drammatica nella storia dell’IA, della tecnologia e, quindi, dell’umanità.

Per molti, le conversazioni che le persone hanno avuto con questo modello di IA suonano così realistiche che il confine tra intelligenza artificiale e umana sembra prossimo a essere superato, generando al tempo stesso profonda ansia e autentica eccitazione. Il chatbot di OpenAI si è infatti dimostrato in grado di sostenere dialoghi prolungati e significativi con gli esseri umani su un’ampia varietà di argomenti, con obiettivi e toni diversi. Si è dimostrato persino in grado di sostituire gli esseri umani in alcuni compiti legati alla conoscenza, come la stesura di saggi o di codice, fino a suscitare preoccupazioni di uso improprio e abuso, soprattutto nel settore dell’istruzione. Si è anche dimostrato, in una certa misura, capace di infondere un senso di empatia, o almeno un codice di condotta che lo rende attento alla sensibilità della maggior parte dei gruppi di persone[4]. Tutte queste conquiste senza precedenti hanno suscitato entusiasmo e stupore nel grande pubblico, sempre più diviso in tecno-idealisti e critici, ma hanno anche attirato l’interesse della comunità dei ricercatori e dei curiosi che non si lasciano facilmente intrappolare dalle previsioni di scenari estremi. Anche in questi gruppi – sostengo – c’è comunque una netta opposizione tra due stati d’animo. Da quando è stato reso pubblico, abbiamo visto sempre più persone postare su qualsiasi social media resoconti perspicaci sulle loro interazioni con il famigerato bot. Molti di loro lo fanno con un intento genuinamente curioso, avendo in mente l’esplorazione delle capacità e dei limiti del modello. Non è un caso che il corpus della letteratura scientifica con questo target sia subito cresciuto in modo significativo, con una media di circa 70 citazioni per articolo che menziona ChatGPT nel 2022 e di 60 nel 2023.

Almeno una frazione equivalente di sperimentatori ha tuttavia adottato un approccio diverso, consistente principalmente nel mostrare gli errori più esilaranti o più evidenti commessi dal chatbot. Con esperti di matematica che dimostrano che non è in grado di risolvere le equazioni più semplici e informatici che si lamentano del fatto che il codice generato automaticamente non funziona (al contrario di quello copiato da StackOverflow), con oratori di talento che mostrano la loro capacità di convincerlo di qualsiasi menzogna e paladini della giustizia che non perdono l’occasione di fargli notare che copia da fonti esterne, ChatGPT è stato oggetto di attacchi tanto quanto di studi rigorosi.

Se ChatGPT è il sistema che ha attirato la maggiore attenzione in assoluto, un discorso analogo vale ovviamente per altri sistemi di IA, che vanno da altri chatbot come Claude di Anthropic a modelli di generazione di immagini come DALL-E di OpenAI, da generatori di video come Sora, sempre di OpenAI, a modelli misti come Gemini di Google. Tuttavia, la categoria di persone che viene colpita più duramente ogni volta che viene rilasciata una nuova e sconvolgente tecnologia di IA non è il pubblico in generale, né una certa comunità lavorativa. Nascosti nei loro laboratori, un esercito di ricercatori di IA guarda all’inarrestabile avanzata dei modelli aziendali con sentimenti contrastanti. Nei loro occhi c’è sicuramente fascino, altrimenti non sarebbero nella loro posizione, ma è mia esperienza personale vedere anche un principio di paura.

Le preoccupazioni di questa categoria di persone sono state ampiamente trascurate nel dibattito in corso. Tuttavia, potrebbero essere tra le più importanti, dato il loro ruolo chiave nello sviluppo dell’IA. Con la disponibilità di strumenti potenti come ChatGPT, Bard, Sora, Perplexity e simili, si può avere l’impressione, o il presentimento, che la ricerca in NLP sia giunta a un punto morto. Lo sviluppo di modelli ancora più potenti, con capacità ancor più straordinarie, sembra nelle mani di giganti aziendali, che dispongono di maggiori risorse rispetto alle università pubbliche e di un unico obiettivo invece di una natura polivalente. Allo stesso tempo, lavorare con questi modelli per analizzarli, per evidenziare le loro fallacie e i loro pregiudizi, per scoprire i loro meccanismi oscuri e allo stesso tempo chiedere la trasparenza che è richiesta nel mondo accademico, potrebbe sembrare un po’ limitante. Tuttavia, i ricercatori stanno sviluppando nuovi modi per far fronte a questa irrisolvibile disillusione. Qui ne elenchiamo alcuni.

Innanzitutto, dobbiamo ricordare che, anche con le tecniche di prompting più intelligenti, ChatGPT e gli altri strumenti più importanti non sono capaci di tutto. Proviamo, per esempio, a chiedere a ChatGPT di delineare una tassonomia dei concetti più importanti dell’IA dell’ultimo decennio. I concetti restituiti sono generali, come “Deep Learning” e “Natural Language Processing”. La Figura 2 riporta i primi concetti restituiti dopo aver chiesto a ChatGPT di entrare più nel dettaglio (si noti che non sono nemmeno ordinati in una tassonomia).

Per quanto potenti, i moderni chatbot basati su LLM hanno i loro limiti. Con le giuste indicazioni possono risolvere molti compiti, anche molto difficili, con incredibile efficienza. Tuttavia, l’Intelligenza Artificiale Generale (nome dato alla visione di un sistema di IA in grado di risolvere qualsiasi compito umano) è ancora lontana dall’essere raggiunta. Dobbiamo sempre ricordare che l’IA è perlopiù specifica per un compito, e proprio come gli esseri umani sono sistemi costituiti da più organi che, se combinati, sono in grado di risolvere più compiti, i modelli di IA devono essere combinati per aumentare il numero di compiti che sono in grado di risolvere. Pertanto, c’è spazio per lo sviluppo di sistemi che affrontano compiti che i sistemi attuali risolvono solo parzialmente: estrazione di informazioni con ragionamento logico, inferenza causale e “perspectivist AI”, per citarne alcuni.

Il secondo obiettivo, altrettanto importante, è lo sviluppo di modelli alternativi. Questo è conveniente per una serie di ragioni. Una è già stata citata: la trasparenza. Gli strumenti citati non sono monolitici, nel senso che si basano tutti sulla combinazione di tecniche e approcci. Prendiamo, come sempre, ChatGPT come esempio. Sappiamo che ChatGPT si basa su un Large Language Model, ovvero GPT 3.5 o GPT 4 a seconda della versione scelta, messo a punto con una tecnica chiamata Reinforcement Learning with Human Feedback. Tuttavia, dai test empirici, è chiaro che il sistema è costituito anche da alcuni meccanismi basati su regole, oltre che da altri modelli di apprendimento automatico più leggeri, utili, ad esempio, per individuare le richieste inappropriate. Se a ciò si aggiunge il fatto che questi sistemi non sono open-source, il risultato è un modello oscuro che produce risultati inspiegabili, o almeno difficilmente spiegabili. Un’altra linea di ricerca è interessata a trovare modelli più semplici e quindi meno costosi in termini di energia e capacità di calcolo. Come sappiamo, i moderni LLM sono costituiti da centinaia di miliardi di parametri, il che comporta un carico insostenibile per l’hardware, oltre a incidere sull’ambiente e a provocare una centralizzazione dei sistemi di intelligenza artificiale e dei dati nelle mani di coloro che possono permettersi i macchinari necessari. Lo sviluppo di modelli alternativi diventa quindi una questione di ecologia e di democrazia economica. E la domanda cruciale diventa: è possibile sviluppare modelli che soddisfino questi requisiti pur essendo potenti come ChatGPT e simili? Sreenivasan et al. riferiscono che molte ricerche hanno trovato che le reti neurali complesse sono facilmente riducibili, pur raggiungendo livelli di accuratezza simili.[5] È quindi naturale pensare che questo risultato sarà possibile anche con gli LLM, che sono molto più grandi.

Infine, c’è un intero filone di ricerca che si occupa di individuare, o debiasare, i contenuti generati dalle macchine.[6] Se pensiamo alla minaccia che l’IA pone alle professioni creative, e dato che questo compito è tra i più difficoltosi per gli esseri umani[7], l’uso di macchine per smascherare macchine sembra un limite necessario e ragionevole. Ma non è solo una questione di Arte. Le fake news, per esempio, possono ricevere un enorme impulso dall’uso dei LLM, con la differenza che mentre un essere umano può diffondere le notizie nella sua cerchia di amici sui social media e attendere gli effetti della rete, un sistema di IA è capace di una velocità di diffusione senza precedenti, superando in parte la necessità di uno human in the loop. Allo stesso modo, studiare i pregiudizi, siano essi politici, sociali o di qualsiasi altra natura, nei LLM ed eventualmente affrontarli è una delle principali preoccupazioni per gli effetti dell’IA sulla società. Questo filone di ricerca viene spesso definito “Etica dell’IA”, ma in un certo senso non è solo una questione di etica. Potremmo chiamarla anche “Politica dell’IA” e in alcuni casi è anche una questione tecnica, poiché i pregiudizi riguardano anche la correttezza delle risposte.

Questi flussi di ricerca dimostrano che la ricerca sull’IA non si è arenata a causa dell’entrata in gioco di concorrenti con un potere enorme. Di certo, la sua attenzione sta cambiando. Si sta passando da una mentalità più orientata ai risultati, che mira a ottenere un miglioramento dell’1% dell’accuratezza rispetto allo stato dell’arte, a una mentalità più orientata alla qualità, il cui obiettivo è migliorare la qualità complessiva dei sistemi di IA sotto una varietà di prospettive: tecniche, sociali, ambientali e così via. Questo passaggio rappresenta una sfida, soprattutto per quanto riguarda il modo in cui i ricercatori hanno percepito il loro lavoro finora. Solo il tempo potrà dire se si tratta di un’evoluzione o di un’illusione. Per il momento, siamo certi che si tratta di qualcosa di nuovo.

[1] https://www.forbes.com/sites/qai/2023/02/01/what-is-chatgpt-how-ai-is-transforming-multiple-industries/

[2] https://oxsci.org/chatgpt-natural-language-processing/

[3] https://www.theguardian.com/technology/2023/feb/02/chatgpt-100-million-users-open-ai-fastest-growing-app

[4] https://futurism.com/conservatives-furious-claiming-chatgpt-has-gone-woke

[5] Sreenivasan, Kartik, et al. “Rare gems: Finding lottery tickets at initialization.” Advances in Neural Information Processing Systems 35 (2022): 14529-14540.

[6] Crothers, Evan, Nathalie Japkowicz, and Herna L. Viktor. “Machine-generated text: A comprehensive survey of threat models and detection methods.” IEEE Access (2023).

[7] Dugan, Liam, et al. “Real or fake text?: Investigating human ability to detect boundaries between human-written and machine-generated text.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 37. No. 11. 2023.

Davide Riva

Research fellow since June 2022, Davide Riva holds a BSc in “Mathematical Engineering” and a MSc in “Data Science and Economics”. Currently, he mainly works on the NGUPP project, maintaining also a deep interest in NLP and machine learning applications for psychology.

View all posts

La ricerca nell’epoca di ChatGPT

Share this:

Leave a Reply Cancel reply