Rilasciati Claude 3.7 e GPT-4.5: la sfida all’ultimo modello di Anthropic e OpenAI

Anthropic

1.3.2025

Rilasciati Claude 3.7 e GPT-4.5: la sfida all’ultimo modello di Anthropic e OpenAI

In due parole

Questa settimana, Anthropic e OpenAI hanno lanciato i loro modelli più recenti, Claude 3.7 Sonnet e GPT-4.5. Entrambi promettono prestazioni migliorate, in particolare nel coding e nella conversazione, rispettivamente.

Claude 3.7 Sonnet: la migliore IA per programmare

Il 24 febbraio Anthropic ha rilasciato Claude 3.7 Sonnet, presentandolo come un modello ibrido capace di ragionamento sia rapido che approfondito. Una delle caratteristiche principali di Claude 3.7 Sonnet è la sua abilità nella programmazione e nello sviluppo web. Insieme al modello è stato anche rilasciato in anteprima limitata Claude Code: si tratta di uno strumento che permette agli sviluppatori di delegare compiti di programmazione all’intelligenza artificiale (IA) direttamente dal terminale.

Ecco le principali caratteristiche di Claude 3.7 Sonnet:

Disponibilità e costi: Claude 3.7 Sonnet è disponibile su tutti i piani Claude, incluso quello gratuito, oltre che tramite l’API di Anthropic API. Il costo rimane invariato rispetto ai predecessori.
Ragionamento avanzato e non: A differenza di altri modelli di ragionamento come o3 di OpenAI o DeepSeek R1, Claude 3.7 Sonnet integra capacità di risposta rapida e riflessione profonda in un unico modello. L’utente può scegliere quando far rispondere il modello normalmente o quando farlo "pensare" più a lungo.
Ottimizzazione per compiti reali: Lo sviluppo di Claude 3.7 Sonnet si è concentrato meno su competizioni di matematica e informatica e più su compiti reali che riflettono l'uso dei large language models nelle aziende.
Performance sorprendenti nella programmazione: Il principale punto di forza di Claude 3.7 Sonnet è la sua grande abilità nella programmazione. Molti osservatori lo hanno identificato come il miglior strumento per la scrittura e la gestione di codici complessi.
Sicurezza e Affidabilità: Anthropic ha condotto test approfonditi sulla sicurezza e l’affidabilità del suo modello. Claude 3.7 Sonnet fa distinzioni più sfumate tra richieste dannose e benigne, e si rifiuta meno spesso di rispondere a richieste non maliziose. Più preoccupante è il fatto che il modello abbia fatto passi avanti anche nell’aiutare gli umani nella progettazione di virus e armi biologiche.

GPT-4.5: più umanità e creatività?

Il 27 febbraio OpenAI ha rilasciato GPT-4.5, un modello che punta a migliorare l'esperienza utente dando sensazioni più umane. GPT-4.5 sembra eccellere nella scrittura creativa e nella generazione di idee, offrendo uno stile di scrittura più naturale e colloquiale.

Disponibilità e costi: Al momento, GPT-4.5 è disponibile solo per gli utenti del piano Pro di ChatGPT (200 dollari al mese), e successivamente sarà esteso ai piani Plus (20 dollari al mese) e Teams. Anche il costo dell'API è significativamente più alto rispetto a GPT-4 e Claude 3.7. Sam Altman, CEO di OpenAI, ha affermato che questo modello è estremamente costoso per l’azienda.
Umanità e intelligenza emozionale: Secondo Altman, GPT-4.5 è il primo modello che dà la sensazione di parlare con una persona premurosa, capace di offrire consigli realmente. Alcuni osservatori hanno però notato che il modello tende a dare un po’ troppo ragione all’utente e la sua “intelligenza emozionale” ha ancora dei limiti
Creatività: GPT-4.5 è indicato come un modello più valido nell’ambito della scrittura creativa.
Performance: Nelle valutazioni di OpenAI, GPT-4.5 mostra miglioramenti nell'accuratezza delle risposte e una leggera riduzione delle allucinazioni rispetto ai modelli precedenti. Tuttavia, non eccelle nei compiti di ragionamento complesso e nei test di matematica, dove altri modelli come Grok 3 e DeepSeek R1 rimangono superiori.
Funzionalità aggiuntive: GPT-4.5 integra funzionalità di ricerca web e ricerca avanzata, oltre alla compatibilità con DALL-E e Canva.

Claude 3.7 vs GPT-4.5: confronto tra i modelli di intelligenza artificiale di ultima generazione

In generale, Claude 3.7 ha generato un'ondata di entusiasmo tra gli osservatori del settore IA, in particolare tra gli sviluppatori, grazie alle sue notevoli capacità di programmazione. La sua abilità di creare applicazioni complesse con un numero limitato di prompt ha impressionato molti; l'opzione di ragionamento avanzato è stata accolta positivamente come un modo per ottenere risposte più ponderate e accurate, sebbene alcuni abbiano notato che non sempre produce risultati migliori.

Al contrario, GPT-4.5 ha suscitato una certa delusione. Nonostante i miglioramenti dichiarati nell’intelligenza emozionale e una riduzione delle allucinazioni, molti ritengono che il modello non sia all'altezza delle aspettative. I test hanno rivelato che GPT-4.5 spesso performa meno bene rispetto a Claude 3.7 e ad altri modelli concorrenti in aree come matematica, scienze e programmazione. Anche nella scrittura creativa, che dovrebbe essere un punto di forza di GPT-4.5, non sembra eccellere rispetto a Claude 3.7. La mancanza di un significativo passo avanti rispetto a GPT-4, combinata con il costo elevato, ha portato molti a mettere in discussione il valore aggiunto di passare a GPT-4.5.

‍