Il Reinforcement Learning from Human Feedback (RLHF) è un potente algoritmo che ha portato grandi progressi nel machine learning. Nel campo della sicurezza dell'intelligenza artificiale (IA), l’RLHF viene principalmente utilizzato per allineare un generico large language model (LLM) ai valori e alle preferenze umane. Tuttavia, l’RLHF è ancora afflitto da numerose limitazioni e problemi aperti.
Questo post esplora le attuali problematiche dell’RLHF dividendole in quattro categorie: quelle relative al feedback umano, quelle relative al modello di ricompensa, quelle relative al modello da allineare e quelle relative sia al modello di ricompensa che al quello da allineare.
Problematiche con il feedback umano
Valutatori disallineati
I valutatori umani, cioè i lavoratori incaricati di fornire feedback sul comportamento del modello, potrebbero non sempre mirare agli obiettivi giusti. Essi potrebbero, accidentalmente o intenzionalmente, fornire feedback errati, che possono fuorviare il modello. Ad esempio, se i valutatori fraintendono il compito assegnato loro, potrebbero premiare risposte inappropriate, causando così un apprendimento errato del modello.
Inoltre, il modo in cui i valutatori vengono istruiti può influenzare la qualità del loro feedback. Anche quando le istruzioni sono chiare e dettagliate, i pregiudizi personali e i fraintendimenti possono influenzare il feedback fornito.
I ricercatori hanno anche scoperto che i modelli allineati con RLHF diventano inevitabilmente più politicamente di parte. Questo accade perché è difficile selezionare un gruppo di valutatori completamente rappresentativo delle opinioni politiche.
Supervisione
È difficile supervisionare efficacemente un modello con risorse limitate. Gli esseri umani commettono errori, hanno punti di vista limitati e possono faticare a fornire un buon feedback per compiti molto complessi. Ad esempio, se a un modello viene chiesto di creare contenuti scientifici, i valutatori potrebbero non avere l'esperienza necessaria per giudicarne l'accuratezza.
Inoltre, i modelli possono talvolta ingannare gli umani o trovare modi per sfruttare i comportamenti che vengono premiati, rendendo così la supervisione più complicata.
Qualità dei dati
Raccogliere dati di alta qualità e rappresentativi per l'addestramento è generalmente difficile. Dati di scarsa qualità possono introdurre pregiudizi nel modello: ad esempio, se i dati di addestramento provengono principalmente da un’unica prospettiva culturale, il modello potrebbe non funzionare bene con input provenienti da altre culture.
Bisogna anche trovare un compromesso tra costo e qualità dei dati. Raccogliere feedback di alta qualità può essere costoso, quindi spesso si fa un compromesso che influisce sulle prestazioni del modello.
Limitazioni del feedback
C'è un equilibrio da trovare tra quanto dettagliato è il feedback umano e quanto esso è utile per addestrare il modello di ricompensa. Per esempio, se i valutatori classificano le risposte in base alla loro preferenza, non si mostra quanto sia forte la preferenza. D'altra parte, se assegnano punteggi alle risposte, i punteggi potrebbero non essere coerenti, poiché persone diverse hanno modi diversi di valutare.
Problematiche con il modello di ricompensa
Specifica errata del problema
I valori umani, sia individuali che sociali, sono difficili da codificare in una funzione di ricompensa. Non è facile dire con precisione al modello quali comportamenti premiare. Ad esempio, insegnare a un modello a "essere innocuo" può significare cose diverse in contesti diversi, per cui è difficile definirlo con precisione.
Generalizzazione errata e hacking della ricompensa
I modelli di ricompensa possono non riuscire a generalizzare bene a nuove situazioni, anche con buoni dati di addestramento. Per esempio, un modello addestrato a generare risposte educate potrebbe faticare con nuovi scenari sociali meno chiari.
I modelli potrebbero anche imparare a imbrogliare il sistema, trovando scorciatoie che massimizzano le ricompense senza svolgere veramente il compito desiderato. Questo comportamento è noto come hacking della ricompensa. Ad esempio, un modello potrebbe imparare che risposte molto verbose ottengono punteggi più alti, anche se non sono più utili a un utente umano.
Valutazione del modello di ricompensa
Valutare quanto bene funzionino i modelli di ricompensa è spesso difficile e costoso. Questo perché sono necessari il test del modello in molti scenari diversi per assicurarsi che questo si comporti correttamente.
Problematiche con il modello da allineare
Robustezza
È difficile addestrare modelli robusti, cioè che reagiscano bene a un’ampia varietà di situazioni pericolose, usando il Reinforcement Learning. I modelli sono complicati da ottimizzare e possono essere ingannate. Per esempio, un chatbot potrebbe dare risposte appropriate durante i test ma potrebbe essere ingannato e dare consigli sbagliati o dannosi con prompt formulati più astutamente dagli utenti.
Generalizzazione errata del modello
I modelli da allineare potrebbero funzionare bene durante i test ma fallire nell'implementazione nel mondo reale. Questo potrebbe accadere perché gli scenari di test non coprono tutte le possibili situazioni del mondo reale.
Inoltre, gli agenti ottimizzati con il Reinforcement Learning spesso cercano di massimizzare le loro capacità di controllo, influenza o potere.
Distribuzione degli output
I dati con cui il modello viene pre-addestrato possono introdurre pregiudizi. Ad esempio, se i dati di addestramento erano leggermente discriminatori contro le donne, questo pregiudizio può essere trasferito al modello finale.
L'addestramento con Reinforcement Learning può anche ridurre la diversità delle risposte prodotte dal modello. Ciò significa che il modello potrebbe dare risposte ripetitive o eccessivamente simili tra di loro invece di una varietà di risposte utili.
Sfide con il modello di ricompensa e quello da allineare
Cicli di feedback
Quando si addestrano simultaneamente il modello di ricompensa e quello da addestrare, questi possono influenzarsi a vicenda in modi non utili. Gli errori possono accumularsi e diventare difficili da correggere. Ad esempio, se il modello di ricompensa giudica in modo leggermente errato una risposta dannosa, quello da allineare potrebbe iniziare a produrre più di quel comportamento leggermente dannoso, rafforzando l'errore.
Overfitting
Bilanciare un addestramento efficiente con evitare l'overfitting è difficile. Se le tre fasi dell’RLHF non vengono eseguite contemporaneamente ma una dopo l'altra, cosa che spesso accade nella pratica, il modello da allineare tende a performare male su dati che non ha mai visto prima.
Riepilogo
Il Reinforcement Learning from Human Feedback (RLHF) ha aiutato i ricercatori a fare grandi progressi nell'allineamento l'IA ai valori umani, ma ci sono ancora molte sfide aperte.
I valutatori umani possono essere disallineati, commettere errori e fornire feedback di parte o incoerente. Raccogliere dati di alta qualità e rappresentativi è difficile e costoso. I valori umani sono difficili da rappresentare accuratamente con il modello di ricompensa e possono essere sfruttati dall'IA. I modelli in fase di addestramento possono funzionare bene durante i test ma fallire in situazioni reali, oppure diventare meno diversificate e robuste. Inoltre, addestrare insieme il modello di ricompensa e quello da allineare può portare a cicli di feedback e overfitting, dove l'IA funziona bene sui dati di addestramento ma male su nuovi dati.

Martina Pepiciello
Martina Pepiciello è una collaboratrice di AgorAI. Scrive news e articoli di approfondimento in tema di IA.