In due parole
Il numero di persone che lavorano sulla sicurezza dell'intelligenza artificiale generale (AGI) è molto inferiore a quanto si potrebbe pensare, e la ricerca sull'allineamento non è affatto sulla giusta strada. Ma se agiamo con decisione, possiamo risolvere questo problema.
Il problema della ricerca sull’allineamento
A un occhio poco esperto può sembrare che ci siano molte persone impegnate sulla sicurezza dell'AGI. Sui social media, molte persone discutono dei rischi legati all'intelligenza artificiale, e sembra che vi sia un complesso industriale ben finanziato dedicato a questa causa. Ma la realtà è molto diversa: pochissime persone stanno effettivamente affrontando le difficoltà centrali dell'allineamento scalabile dell'AGI. In tutto il mondo, ci sono probabilmente 100.000 ricercatori che lavorano all’avanzamento del machine learning (ML), mentre i ricercatori dedicati all'allineamento sono solo circa 300, un rapporto di circa 300:1. Ad esempio, il team di allineamento scalabile di OpenAI contava 7 persone nel 2023 ed è stato completamente eliminato nel 2024.
Per di più, molti di coloro che lavorano sull'allineamento si concentrano su teorie astratte, spesso lontane dai modelli di ML reali. Altri lavorano su tecniche che potrebbero essere utili per i modelli attuali, ma che probabilmente falliranno quando applicate a sistemi con capacità superiori a quelle umane.
Se i tempi per lo sviluppo dell'AGI sono brevi e non agiamo rapidamente, ci troveremo in serie difficoltà. L'allineamento scalabile, ovvero l'allineamento di sistemi AGI con capacità superumane, è un problema reale e irrisolto. Il concetto è semplice: le attuali tecniche di allineamento si basano sulla supervisione umana, ma man mano che i modelli diventano superumani, gli esseri umani non saranno più in grado di supervisionarli in modo affidabile.
Questo non significa però che la situazione sia senza speranza. Al contrario, l'allineamento scalabile è un problema risolvibile, ed è un problema su cui è possibile fare scienza reale man mano che i modelli diventano più avanzati. Tuttavia, è necessario fermare l'indecisione e agire con serietà. Serve uno sforzo che sia proporzionato alla gravità della sfida.
Perché l’allineamento non è in carreggiata
Un post del 2022 ha stimato che ci sono circa 300 ricercatori a tempo pieno che si occupano della sicurezza tecnica dell'intelligenza artificiale (IA). In confronto, nel 2021 ci sono stati 30.000 partecipanti a ICML, una singola conferenza di machine learning. È plausibile che ci siano almeno 100.000 ricercatori che lavorano su ML/IA in totale. Questo implica un rapporto di circa 300:1 tra i ricercatori sull'avanzamento del ML e quelli sulla sicurezza dell'AGI.
Ma più che i numeri, ciò che rende davvero tangibile questa situazione è osservare la ricerca. C'è molto poco lavoro di ricerca che sembri affrontare davvero le difficoltà centrali del problema, con un piano chiaro su come risolverlo entro pochi anni.
Esaminiamo brevemente e in modo incompleto il panorama della ricerca.
Paul Christiano e l'Alignment Research Center (ARC)
Paul Christiano è il ricercatore di allineamento più rispettato nella maggior parte dei circoli. Ha guidato il team di allineamento di OpenAI e ha fatto utili contributi concettuali, come l'Eliciting Latent Knowledge e l'iterated amplification.
Tuttavia, la sua ricerca attuale è orientata a "tentare di risolvere l'allineamento attraverso prove matematiche molto complesse". Nonostante il rispetto per Christiano, molti sono scettici: quasi tutti i progressi nel deep learning sono stati empirici, spesso grazie a intuizioni piuttosto che a teorie sofisticate. È probabile che l'allineamento dei sistemi di deep learning si realizzi in modo simile.
Interpretabilità meccanicistica
Questo campo di ricerca, che cerca di decodificare le reti neurali per capirle meglio, è probabilmente la più rispettata nel campo. Chris Olah e il suo team hanno fatto scoperte interessanti.
C'è però scetticismo che riusciremo a decodificare sufficientemente sistemi avanzati come GPT-7. Questo lavoro è importante, soprattutto in una prospettiva a lungo termine, ma sembra poco probabile che risolva il problema tecnico se l'AGI è vicina.
RLHF (Reinforcement Learning from Human Feedback)
Questa è la tecnica che tutti i laboratori stanno usando per allineare i modelli attuali, come ChatGPT. Funziona abbastanza bene per i modelli attuali, ma c'è un problema ben noto: questa tecnica probabilmente non si scalerà ai modelli superumani, poiché si basa sulla supervisione umana, che diventerà inefficace con sistemi più avanzati.
RLHF++ / “supervisione scalabile”
In questo ambito rientrano i piani attuali dei laboratori per l'allineamento scalabile. L'idea è che, poiché le tecniche di RLHF non saranno applicabili a modelli troppo intelligenti, si cercherà di spingersi il più avanti possibile con metodi simili. Poi si cercherà di usare sistemi di IA più intelligenti per potenziare la supervisione umana, un po’ come un bambino che si fa aiutare da un teenager per supervisionare un adulto. Questo approccio ha il vantaggio di essere basato su sperimentazioni iterative, che è il modo in cui la scienza funziona generalmente, al contrario delle teorie astratte.
Ma questo piano non è ambizioso quanto dovrebbe e potrebbe non funzionare, perché si basa su ipotesi empiriche incerte su come si svilupperà la situazione.
MIRI e altri ricercatori indipendenti
C'è molto scetticismo sul fatto che lavori astratti su teorie decisionali, come quelle dell’istituto MIRI, possano risolvere il problema dell'allineamento. L'allineamento è considerato un problema di ML e non può essere risolto senza essere collegato a sistemi ML reali.
Questa panoramica copre gran parte del lavoro che viene svolto. È importante sottolineare che è positivo che queste ricerche siano in corso, ma è necessario riconoscere che non siamo sulla giusta strada per risolvere realmente il problema.
L'allineamento scalabile è un problema reale
Immagina un modello come GPT-7, che diventa superumano in molti compiti, ed è collegato a vari strumenti e a Internet. Lo vuoi per gestire la tua azienda. Il modello propone una serie di azioni complesse, e vuoi sapere se queste violano qualche legge. Le tecniche attuali di allineamento si basano sulla supervisione umana, ma con modelli superumani, gli esseri umani non saranno in grado di comprenderne appieno le conseguenze. E se non si è in grado di rilevare un comportamento scorretto, non si può prevenire.
Anche senza andare a cercare scenari estremi di rischio esistenziale, questo problema è grave. Nell’esempio sopra, non si è riusciti a garantire che GPT-7 non violi la legge.
Un altro caso particolare: immagina che GPT-7 stia diventando superumano nella ricerca sull'IA e proponga un piano complesso per un nuovo sistema di IA avanzato. GPT-7 ha anche ideato una soluzione di allineamento per questo sistema, ma tale soluzione è troppo complessa per essere valutata dagli esseri umani. Come si può sapere se la soluzione proposta è sicura? Attualmente non esiste un metodo affidabile per saperlo.
Risolvere questo problema per sistemi AGI superumani è ciò che si chiama "allineamento scalabile". Questo è molto diverso e più impegnativo rispetto al lavoro di allineamento a breve termine, come impedire a ChatGPT di dire parolacce.
Il problema tecnico centrale è: cosa succede quando i sistemi diventano troppo complessi per essere supervisionati dagli esseri umani? Le tecniche attuali non saranno applicabili ai sistemi futuri.
L'allineamento scalabile è un problema risolvibile
Sebbene possa esserci pessimismo nella comunità della sicurezza dell’IA, l'allineamento scalabile è un problema risolvibile. Sostanzialmente, si tratta di un problema di machine learning, e la scienza può aiutare a risolverlo. Tuttavia, questo richiede un impegno serio, come lo è stato per grandi progetti storici come l'atterraggio sulla Luna.
Esistono due categorie principali di critici pessimisti: i critici generali dell'allineamento che non vedono alcun progresso scientifico significativo e i pessimisti sulla fattibilità di risolvere il problema. Entrambe le categorie hanno ragione su certi aspetti, ma è necessario spingersi oltre. Bisogna riconoscere l'urgenza del problema e agire di conseguenza. Anche se il problema non verrà risolto subito, è comunque possibile e necessario lavorare per risolverlo.
In sintesi, la situazione attuale non è buona, ma è ancora possibile fare qualcosa. Tuttavia, pochissime persone stanno lavorando su questo problema cruciale.
Se l'AGI è vicina, dobbiamo agire ora. C'è ancora tempo per risolvere il problema dell'allineamento, ma questo richiede che più persone si impegnino a fondo. Solo così potremo evitare di trovarci in una situazione in cui l'AGI potrebbe causare danni irreparabili.