Teoria
11.9.2024

Cosa sono i Large Language Models? Sveliamo la magia dietro a ChatGPT, Claude e Gemini

Illustrazione: Martina Pepiciello

ChatGPT, Claude e Gemini sono nomi di cui avrai sicuramente sentito parlare nell’ambito dell’intelligenza artificiale. Sono esempi di Large Language Models (LLM), o "Modelli Linguistici di Grandi Dimensioni" in italiano. Grazie alla loro capacità di “dialogare” con noi, questi modelli stanno rivoluzionando la nostra vita quotidiana, dai chatbot ai motori di ricerca, passando per gli assistenti vocali. Ma cosa sono esattamente, e cosa si nasconde dietro le loro sorprendenti capacità?

Che cosa sono i Large Language Models, esattamente?

I Large Language Models sono un tipo di intelligenza artificiale progettata per comprendere e generare testo in modo coerente. Nello specifico, si tratta di un particolare tipo di reti neurali profonde (deep learning).

La parola "large" (grande) si riferisce alla complessità del modello, ovvero alla gigantesca mole di dati con cui è stato addestrato e al numero enorme di parametri che utilizza. GPT-4, per esempio, utilizza circa 100 trilioni di parametri: è un numero talmente grande che, se ogni parametro fosse scritto su un foglietto di carta e i foglietti fossero impilati uno sopra l’altro, la torre sarebbe alta 50 volte la distanza tra la Terra e il Sole!

Questa complessità è necessaria per catturare la vasta gamma di contesti e sfumature del linguaggio umano: in un qualche modo che nemmeno gli esperti comprendono appieno, i parametri formano una dettagliata rappresentazione matematica di come le parole si collegano tra loro in frasi e significati. Grazie a questa conoscenza, gli LLM possono svolgere moltissimi compiti diversi, tra cui rispondere a domande, scrivere articoli o poesie, riassumere documenti e tradurre testi.

Come funzionano queste meraviglie tecnologiche?

Il processo di creazione, o “addestramento”, di un LLM è simile a come un bambino impara a parlare, ma su larga scala. Durante questa fase, il modello "legge" enormi quantità di testo da internet, libri, articoli e qualsiasi altra fonte disponibile, imparando così relazioni tra le parole e schemi ricorrenti. 

In particolare, il modello impara a dedurre da un blocco di testo quale sia la parola o la sequenza più probabile per completarlo. Per esempio, data la frase

“Quando è autunno e fuori piove, vado in cucina e…”

un LLM potrebbe imparare le seguenti probabilità per le sequenze con cui completarla:

  • “cucino una zuppa.”: 8,3%
  • “preparo un the caldo.”: 5,6%
  • “mi rilasso.”: 3,3%
  • “guardo la pioggia.”: 2,8%
  • “accendo la radio.”: 1,2%

Quando “parliamo” con un LLM, questo in realtà sta sempre generando la sequenza di parole più probabile per completare la conversazione, una parola alla volta, un po' come un potentissimo software di completamento automatico.

Il fatto che un processo “semplice” come generare ripetutamente la parola più probabile possa replicare il linguaggio umano è sorprendente anche per gli esperti. Questa capacità straordinaria, però, emerge solo se si usano reti neurali molto profonde e con tantissimi parametri.

Dietro le quinte: gli ingredienti che rendono gli LLM così potenti

Ecco alcuni ingredienti chiave che contribuiscono a far funzionare gli LLM in modo così simile al nostro linguaggio.

  • Reti neurali profonde. È l’architettura usata per i LLM. Si tratta di una rete di piccole unità di calcolo interconnesse, organizzate in moltissimi livelli. Ogni unità, detta neurone, riceve informazioni, le elabora e le passa al livello successivo. La “forza” di ciascuna connessione è determinata da uno dei tantissimi parametri, che vengono imparati durante l’addestramento. Questa struttura permette al modello di apprendere rappresentazioni del linguaggio via via più astratte e complesse..
  • Transformer. Si tratta di una sotto-architettura rivoluzionaria introdotta nel 2017. Essa permette agli LLM di focalizzarsi sulle parti più importanti di una frase, aiutando il modello a processare testi sempre più lunghi senza perdersi nei dettagli.
  • Tokenizzazione. Prima che il testo possa essere elaborato, viene diviso in "token". Questi possono essere parole intere, parti di parole o anche singoli caratteri. La tokenizzazione aiuta il modello a gestire il vocabolario e a comprendere la struttura delle parole.
  • Fine-tuning. Una volta addestrato, un LLM può essere affinato (fine-tuned) per svolgere compiti specifici, come rispondere a domande in un chatbot o tradurre un testo da una lingua all'altra.

Gli LLM intorno a noi: le applicazioni principali

Gli LLM sono estremamente versatili e vengono utilizzati in una vasta gamma di applicazioni.

  • Traduzione. Gli LLM possono tradurre testi tra lingue diverse quasi istantaneamente. A differenza dei vecchi sistemi di traduzione che lavoravano frase per frase, gli LLM comprendono il contesto dell'intero documento, producendo traduzioni più naturali e accurate. Per esempio, possono mantenere il tono e lo stile dell'originale, che sia formale, colloquiale o tecnico.
  • Riassunti. Possono condensare lunghi articoli o documenti in brevi paragrafi, estraendo i punti chiave. 
  • Chatbot e assistenti virtuali. Gli LLM possono conversare in modo naturale, comprendendo il contesto e mantenendo la coerenza in lunghe conversazioni. Un assistente virtuale basato su LLM potrebbe, per esempio, aiutare un utente a pianificare un viaggio, suggerendo itinerari e rispondendo a domande specifiche sulla destinazione.
  • Creazione di contenuti. GLi LLM possono scrivere articoli, storie, poesie o persino sceneggiature. Un LLM potrebbe, ad esempio, generare bozze di articoli giornalistici basati su fatti e dati forniti, o creare variazioni di una storia per esplorare diverse trame.
  • Generazione di codice. Gli LLM possono aiutare i programmatori scrivendo parti di codice o suggerendo soluzioni a problemi. Questo può accelerare notevolmente lo sviluppo software e rendere la programmazione più accessibile ai non esperti.

In molti di questi compiti, gli LLM stanno raggiungendo le capacità umane, creando nuove possibilità per l’automazione.

Non è tutto oro quel che luccica: limiti e rischi degli LLM

Nonostante i loro successi e le loro capacità impressionanti, gli LLM hanno anche dei limiti significativi. 

Allucinazioni. Uno dei problemi principali è la tendenza degli LLM a "inventare" informazioni che sembrano plausibili ma sono false. Questo accade perché il modello sta essenzialmente facendo una supposizione basata sui suoi dati di addestramento, non accedendo a una base di dati verificati. Per esempio, un LLM potrebbe generare una citazione convincente ma completamente fittizia, o creare dettagli inventati su un evento storico.

“ChatGPT inventa uno scandalo di molestia sessuale e nomina un professore di legge realmente esistente come l’accusato” su The Washington Post

Black box. Spesso gli sviluppatori non sanno esattamente come gli LLM arrivano alle loro risposte a causa della complessità dei modelli. Questo solleva questioni di trasparenza e affidabilità di cui abbiamo discusso più in dettaglio in questo articolo.

Pregiudizi. Gli LLM possono riflettere e amplificare pregiudizi di genere, etnia, o altro presenti nei dati su cui sono stati allenati. Per esempio, un LLM potrebbe usare un linguaggio stereotipato parlando di alcuni gruppi etnici.

“Amazon abbandona il segreto strumento IA di selezione del personale che mostrava pregiudizi contro le donne” su Reuters

Allineamento etico. Gli LLM possono involontariamente generare contenuti offensivi, disinformazione o consigli potenzialmente dannosi. La questione di come "insegnare" alle intelligenze artificiali a comportarsi in modo etico è un'area di ricerca attiva e complessa.

“La NEDA sospende un chatbot IA per aver dato consigli dannosi sui disturbi del comportamento alimentare” su Psychiatrist.com

Privacy e copyright. L'uso di enormi quantità di dati per l'addestramento solleva questioni legali ed etiche riguardo alla privacy e alla proprietà intellettuale. C'è un dibattito in corso su come gestire i diritti d'autore e la privacy dei dati utilizzati per addestrare questi modelli.

“Alcuni autori fanno causa ad Anthropic per infrazione del copyright nell’addestramento dell’IA” su Reuters

Costo computazionale. L'addestramento e l'utilizzo di LLM sempre più complessi richiedono enormi risorse computazionali. Questo si traduce in alti costi e consumi energetici.

“Il consume energetico dell’AI è fuori controllo” su Wired

Potenziale impatto sull'occupazione. L'automazione di molti mestieri basati sul linguaggio può portare a cambiamenti importanti nel mercato del lavoro. Potrebbero crearsi nuove opportunità, ma anche enormi riduzioni di posti di lavoro in certi settori.

“L’IA causerà disordine nel mercato del lavoro. Non per forza lo distruggerà.” su Chicago Booth Review

In sintesi: il panorama delle macchine loquaci

I Large Language Models sono una potente tecnologia in grado di comprendere e generare testo in modo coerente. Queste reti neurali gigantesche funzionano analizzando enormi quantità di testo e imparando a prevedere la sequenza di parole più probabile per completare una conversazione.

Le loro applicazioni spaziano dalla traduzione alla creazione di contenuti, dall'assistenza virtuale alla generazione di codice. Tuttavia, portano con sé anche sfide etiche e pratiche significative, dalla tendenza alle allucinazioni ai problemi di etica e privacy.

Martina Pepiciello

Martina Pepiciello è una collaboratrice di AgorAI. Scrive news e articoli di approfondimento in tema di IA.

Leggi Anche