Ovvero: come Anthropic ha smesso di promettere e ha iniziato a consegnare.
Introduzione
Settembre 2025. Nel frastuono di superlativi sull’AI, Anthropic annuncia Claude Sonnet 4.5 con una frase quasi d’altri tempi: “il miglior modello per il coding al mondo”. Questa volta, però, i numeri reggono — e reggono dove conta: coding reale, uso del computer, agenti che lavorano a lungo senza sbandare. (Anthropic)
1) SWE-bench: dal benchmark alla realtà
- 77,2% su SWE-bench Verified (fino a 82,0% con test-time compute), ottenuto con un setup minimale: bash + file editing per string replacement. Niente carrozzoni di orchestrazione a coprire le magagne. (Anthropic)
- SWE-bench Verified misura la capacità di risolvere issue estratte da repo GitHub reali — non esercizi scolastici. (swebench.com)
Traduzione spiccia: il modello è bravo di suo, non perché lo sorreggono 47 strati di scaffolding.
2) Computer Use: finalmente qualcosa che funziona
- 61,4% su OSWorld, contro il 42,2% di Sonnet 4 quattro mesi fa: un salto che trasforma il “bel prototipo” in “strumento usabile”. La demo del browser agent scorre senza quella sequenza di ops… retry. (Anthropic)
- OSWorld valuta 369 task su app reali (web e desktop) con setup ed esecuzione riproducibili. (os-world.github.io)
Pattern che emerge: l’agentic AI non è una feature, è un paradigma. Servono memoria, permessi, checkpoint, coordinamento. Tutto ciò che hanno imparato con Claude Code adesso confluisce nel Claude Agent SDK. (Claude Docs)
3) Alignment: il dettaglio che tutti ignorano (e non dovrebbero)
Anthropic investe su cose apparentemente noiose — riduzione di sycophancy, deception, power-seeking — e lo documenta nella System Card di Sonnet 4.5, con anche test di mechanistic interpretability. (Anthropic Brand Portal)
C’è poi il tema CBRN: i classifier possono generare falsi positivi, ma vengono mantenuti e migliorati (−10× dai primi test, −2× rispetto a Opus 4). Il modello è rilasciato sotto protezioni ASL-3 come da Responsible Scaling Policy. (Anthropic)
4) I numeri che contano (e cosa significano)
- 30+ ore di focus su task complessi multi-step (osservato in pratica). (Anthropic)
- Prezzi invariati: $3 / $15 per MTok (input/output), con opzione long-context. (Anthropic)
- ASL-3 in produzione e miglioramenti su finance, law, medicine, STEM riportati da esperti esterni. (Anthropic)
5) Claude Code: quando l’infrastruttura diventa prodotto
- Checkpoint (la feature più richiesta): rollback istantaneo a stati precedenti, utile quando un agent sbaglia strada.
- Terminal rinnovato, estensione VS Code nativa, context editing, memory tool.
- SDK aperto: la stessa infrastruttura che alimenta Claude Code è disponibile agli sviluppatori come Claude Agent SDK. Non un “getting started” sterilizzato, lo stesso stack. (Anthropic)
6) “Imagine with Claude”: un research preview interessante
Un esperimento di generazione software in tempo reale (zero codice pre-impostato), disponibile per 5 giorni agli abbonati Max. Niente marketing roboante: “guardate cosa si può fare, se vi va provate”. (Anthropic)
Limiti e punti di vista alternativi
- Generalizzabilità dei benchmark: 77,2% su SWE-bench Verified e 61,4% su OSWorld sono ottimi, ma non coprono tutto: ambienti aziendali non standard, tool proprietari, workflow con edge case strani restano terreno scivoloso. (swebench.com)
- Falsi positivi Safety/CBRN: meglio un blocco in più che uno in meno? Dipende dal contesto. In ambienti produttivi può essere accettabile, in prototipazione creativa può frustrare. (Anthropic)
- Costo e latenza del “thinking”: performance top spesso richiedono thinking esteso o test-time compute; non sempre è ciò che serve per task brevi o near-real-time. (Anthropic)
- Vendor lock-in vs portabilità: l’SDK è comodo, ma spinge a mettere radici nell’ecosistema Anthropic. Valuta interfacce e astrazioni per restare agnostico dove ti serve. (Claude Docs)
Conclusione
Claude Sonnet 4.5 non è “il modello che risolve tutto”. È un ottimo strumento per fare benissimo alcune cose: coding reale, agent orchestration, computer use e reasoning su compiti lunghi. Il pricing invariato è un segnale di serietà; l’SDK aperto invita a costruire più che a consumare. In un mercato che corre verso sigle altisonanti, qui trovi tool solidi che funzionano davvero — il genere di cose che, fra sei mesi, metti in produzione senza sudare freddo. (Anthropic)
Riferimenti:
- Annuncio ufficiale: Introducing Claude Sonnet 4.5 — Anthropic, 29 set 2025. https://www.anthropic.com/news/claude-sonnet-4-5 (Anthropic)
- System Card – Claude Sonnet 4.5 (PDF). https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf (Anthropic Brand Portal)
- Model page – Claude Sonnet 4.5. https://www.anthropic.com/claude/sonnet (Anthropic)
- Claude Agent SDK – Overview. https://docs.claude.com/en/docs/claude-code/sdk/sdk-overview (Claude Docs)
- Pricing (Claude Docs). https://docs.anthropic.com/en/docs/about-claude/pricing (Claude Docs)
- SWE-bench (sito ufficiale) + SWE-bench Verified (introduzione). https://www.swebench.com/ — https://openai.com/index/introducing-swe-bench-verified/ (swebench.com)
- OSWorld (sito e paper). https://os-world.github.io/ — https://arxiv.org/abs/2404.07972 (os-world.github.io)
- Responsible Scaling Policy / ASL (overview + aggiornamenti). https://www.anthropic.com/news/anthropics-responsible-scaling-policy — https://www.anthropic.com/rsp-updates (Anthropic)

Leave a comment