Come addomesticare i large language models: il Reinforcement Learning from Human Feedback

Martina Pepiciello

Il Reinforcement Learning from Human Feedback (RLHF), traducibile in italiano come “apprendimento per rinforzo dal feedback umano”, è una tecnica utilizzata per “addomesticare” i large language models (LLM), allineandoli alle preferenze e ai valori umani. Varianti di questa tecnica sono usate per allineare potenti assistenti di intelligenza artificiale come ChatGPT e Claude.

Perché usare l’RLHF?

I large language models vengono inizialmente addestrati con apprendimento supervisionato. Tuttavia, le funzioni di perdita esistenti faticano a catturare tutta la complessità del linguaggio umano e dei suoi vari requisiti contestuali.

Per far fronte a questo problema, dopo l'apprendimento supervisionato, il modello viene ulteriormente ottimizzato utilizzando il feedback umano come funzione di perdita. Questo aiuta ad allineare il modello, addestrato su testi generici, ai valori umani.

I tre passaggi dell’RLHF

1. Pre-addestramento del LLM

Per prima cosa, il modello viene pre-addestrato su testi generici presi da Internet, imparando a prevedere la parola successiva a partire da quelle precedenti.

Successivamente, il modello passa attraverso una fase di fine-tuning (adattamento) supervisionato. Il fine-tuning insegna al modello come rispondere a diversi prompt in vari contesti, come generazione di testo, brainstorming o risposte a domande, in modo che risponda bene a una varietà di istruzioni. I dati per il fine-tuning supervisionato possono essere creati da esseri umani o selezionati da fonti affidabili su Internet.

Se lo si desidera, il modello può anche essere addestrato su testi selezionati o di qualità superiore per imparare comportamenti preferibili o desiderabili.

Questo primo passaggio è il più intensivo dal punto di vista computazionale.

2. Addestramento del modello di ricompensa

L'obiettivo di questa fase è addestrare un modello che accetti del testo in entrata e produca un numero, chiamato ricompensa, che misura la preferenza umana per il testo in ingresso. La ricompensa dovrebbe anche massimizzare la differenza tra testo di buona e di cattiva qualità. Questo modello è chiamato Reward Model (RM) (“modello di ricompensa”).

Per addestrare il RM, si può iniziare da un altro LLM sottoposto a fine-tuning, come quello della fase 1, o addestrare un LLM da zero utilizzando dati di preferenza umana. Attualmente, non esiste una scelta chiaramente migliore. In ogni caso, il RM e l'LLM che vogliamo allineare dovrebbero avere un numero di parametri comparabile; ciò garantisce che il RM sia in grado di catturare le complessità del linguaggio umano così come l'LLM.

I dati di addestramento

I dati utilizzati per addestrare il RM consistono di coppie prompt-risposta generate dall'LLM da allineare e accompagnate da valutazioni umane.

Se si chiedesse alle persone di valutare direttamente le coppie prompt-risposta su una scala da 1 a 10, persone diverse avrebbero tendenze differenti ad assegnare punteggi più alti o più bassi, rendendo così i punteggi inaffidabili.

Per questo motivo, si chiede alle persone di classificare un piccolo numero di coppie prompt-risposta in ordine di preferenza. Gli ordinamenti di persone diverse vengono quindi combinati con un algoritmo che produce un punteggio per ogni coppia prompt-risposta: quest’ultimo, ora, riflette la sua classifica complessiva da parte di diverse persone. Un modo comune per fare ciò è il sistema di punteggio Elo, utilizzato anche per classificare i giocatori di scacchi o e-sport in base ai risultati delle partite.

Alla fine del processo di valutazione, quindi, si hanno coppie prompt-risposta etichettate con un punteggio assoluto che riflette la "bontà" della risposta. Utilizzando questi dati, il RM può apprendere le caratteristiche delle risposte valutate positivamente dagli esseri umani, per poi saper valutare una grande quantità di nuove coppie prompt-risposta che non ha mai visto prima.

3. Fine-tuning dell'LLM usando il modello di ricompensa e l'apprendimento per rinforzo

L'ultimo passaggio è il fine-tuning di una parte dei parametri dell'LLM in base alle preferenze umane, utilizzando l'apprendimento per rinforzo basato sui punteggi del RM. Il motivo per cui viene sottoposta a fine-tuning solo una frazione dei parametri è che farlo per tutti sarebbe troppo costoso.

Il processo

Per fare ciò, sono necessari l'LLM che da allineare, del RM appena addestrato e di una copia dell'LLM originale dal passaggio 1.

Per prima cosa, si fornisce un prompt all'LLM da rifinire, il quale produce una risposta.
La coppia prompt-risposta viene quindi passata al RM, che produce un punteggio di preferenza.
Il prompt viene anche passato alla copia dell'LLM originale per ottenere la sua distribuzione di probabilità. Viene quindi calcolato un numero che rappresenta quanto la risposta dell'LLM da allineare si discosta da quella dell'LLM originale. Questo numero viene utilizzato come penalità per garantire che l'LLM da allineare non si discosti troppo dall'LLM originale, che forniva risposte puramente utili. Senza questa penalità, l'LLM da allineare degenererebbe, producendo frasi insensate che ottengono alti punteggi dal RM.
La penalità del passaggio 3 viene sottratta dal punteggio del passaggio 2, ottenendo così la ricompensa totale.
L'LLM da allineare viene aggiornato utilizzando l'apprendimento per rinforzo con la ricompensa totale del passaggio precedente.
Vengono ripetuti i passaggi 1-5 fino a quando non si è soddisfatti delle risposte dell'LLM.

Dopo aver fatto ciò, si può anche chiedere alle persone di classificare l'output del nuovo LLM, utilizzare i dati per aggiornare il RM e quindi fare un altro giro di apprendimento per rinforzo. Questo ciclo può continuare quanto si ritiene necessario.

Le sfide dell’RLHF

Sebbene questo processo possa dare ottimi risultati, presenta ancora limitazioni e sfide.

L'LLM allineato può talvolta produrre risposte sbagliate o dannose con alta fiducia. Ciò è una conseguenza dell'incertezza umana.
La qualità dell'LLM allineato dipende dalla qualità del feedback umano.
Ottenere i dati di preferenza per addestrare il RM è molto costoso, quindi spesso solo grandi aziende a scopo di lucro possono permetterselo.

Ricapitolando

L'RLHF è un metodo usato per allineare modelli di linguaggio come ChatGPT alle preferenze umane. È strutturato in tre passaggi principali.

Pre-addestramento dell'LLM su testi generici e, se si desidera, fine-tuning con testi di qualità superiore.
Addestramento di un modello di ricompensa (RM) per dare voti alle risposte in base alle preferenze umane, utilizzando coppie prompt-risposta classificate.
Fine-tuning dell'LLM con apprendimento per rinforzo utilizzando i punteggi del RM e una penalità per garantire che l'LLM non si discosti troppo dalle sue risposte originali.

Nonostante la sua efficacia, il RLHF affronta sfide come la possibilità di risposte sbagliate o dannose, la dipendenza dalla qualità del feedback umano e l'alto costo dei dati di preferenza.

‍

Come addomesticare i large language models: il Reinforcement Learning from Human Feedback

Perché usare l’RLHF?

I tre passaggi dell’RLHF

1. Pre-addestramento del LLM

2. Addestramento del modello di ricompensa

I dati di addestramento

3. Fine-tuning dell'LLM usando il modello di ricompensa e l'apprendimento per rinforzo

Il processo

Le sfide dell’RLHF

Ricapitolando

Leggi Anche

AgorAI

Chi siamo

Contatti

Notizie

Approfondimento

Seguici su

Ascolta il nostro podcast