Claude Sonnet 4.5: l’arte di far bene le cose difficili


Ovvero: come Anthropic ha smesso di promettere e ha iniziato a consegnare.

Introduzione

Settembre 2025. Nel frastuono di superlativi sull’AI, Anthropic annuncia Claude Sonnet 4.5 con una frase quasi d’altri tempi: “il miglior modello per il coding al mondo”. Questa volta, però, i numeri reggono — e reggono dove conta: coding reale, uso del computer, agenti che lavorano a lungo senza sbandare. (Anthropic)


1) SWE-bench: dal benchmark alla realtà

  • 77,2% su SWE-bench Verified (fino a 82,0% con test-time compute), ottenuto con un setup minimale: bash + file editing per string replacement. Niente carrozzoni di orchestrazione a coprire le magagne. (Anthropic)
  • SWE-bench Verified misura la capacità di risolvere issue estratte da repo GitHub reali — non esercizi scolastici. (swebench.com)

Traduzione spiccia: il modello è bravo di suo, non perché lo sorreggono 47 strati di scaffolding.


2) Computer Use: finalmente qualcosa che funziona

  • 61,4% su OSWorld, contro il 42,2% di Sonnet 4 quattro mesi fa: un salto che trasforma il “bel prototipo” in “strumento usabile”. La demo del browser agent scorre senza quella sequenza di ops… retry. (Anthropic)
  • OSWorld valuta 369 task su app reali (web e desktop) con setup ed esecuzione riproducibili. (os-world.github.io)

Pattern che emerge: l’agentic AI non è una feature, è un paradigma. Servono memoria, permessi, checkpoint, coordinamento. Tutto ciò che hanno imparato con Claude Code adesso confluisce nel Claude Agent SDK. (Claude Docs)


3) Alignment: il dettaglio che tutti ignorano (e non dovrebbero)

Anthropic investe su cose apparentemente noiose — riduzione di sycophancy, deception, power-seeking — e lo documenta nella System Card di Sonnet 4.5, con anche test di mechanistic interpretability. (Anthropic Brand Portal)

C’è poi il tema CBRN: i classifier possono generare falsi positivi, ma vengono mantenuti e migliorati (−10× dai primi test, −2× rispetto a Opus 4). Il modello è rilasciato sotto protezioni ASL-3 come da Responsible Scaling Policy. (Anthropic)


4) I numeri che contano (e cosa significano)

  • 30+ ore di focus su task complessi multi-step (osservato in pratica). (Anthropic)
  • Prezzi invariati: $3 / $15 per MTok (input/output), con opzione long-context. (Anthropic)
  • ASL-3 in produzione e miglioramenti su finance, law, medicine, STEM riportati da esperti esterni. (Anthropic)

5) Claude Code: quando l’infrastruttura diventa prodotto

  • Checkpoint (la feature più richiesta): rollback istantaneo a stati precedenti, utile quando un agent sbaglia strada.
  • Terminal rinnovato, estensione VS Code nativa, context editing, memory tool.
  • SDK aperto: la stessa infrastruttura che alimenta Claude Code è disponibile agli sviluppatori come Claude Agent SDK. Non un “getting started” sterilizzato, lo stesso stack. (Anthropic)

6) “Imagine with Claude”: un research preview interessante

Un esperimento di generazione software in tempo reale (zero codice pre-impostato), disponibile per 5 giorni agli abbonati Max. Niente marketing roboante: “guardate cosa si può fare, se vi va provate”. (Anthropic)


Limiti e punti di vista alternativi

  • Generalizzabilità dei benchmark: 77,2% su SWE-bench Verified e 61,4% su OSWorld sono ottimi, ma non coprono tutto: ambienti aziendali non standard, tool proprietari, workflow con edge case strani restano terreno scivoloso. (swebench.com)
  • Falsi positivi Safety/CBRN: meglio un blocco in più che uno in meno? Dipende dal contesto. In ambienti produttivi può essere accettabile, in prototipazione creativa può frustrare. (Anthropic)
  • Costo e latenza del “thinking”: performance top spesso richiedono thinking esteso o test-time compute; non sempre è ciò che serve per task brevi o near-real-time. (Anthropic)
  • Vendor lock-in vs portabilità: l’SDK è comodo, ma spinge a mettere radici nell’ecosistema Anthropic. Valuta interfacce e astrazioni per restare agnostico dove ti serve. (Claude Docs)

Conclusione

Claude Sonnet 4.5 non è “il modello che risolve tutto”. È un ottimo strumento per fare benissimo alcune cose: coding reale, agent orchestration, computer use e reasoning su compiti lunghi. Il pricing invariato è un segnale di serietà; l’SDK aperto invita a costruire più che a consumare. In un mercato che corre verso sigle altisonanti, qui trovi tool solidi che funzionano davvero — il genere di cose che, fra sei mesi, metti in produzione senza sudare freddo. (Anthropic)


Riferimenti:


Leave a comment


Benvenuto su Salahzar.com

Qui trovi analisi critiche sull’intelligenza artificiale e le sue implicazioni sociali, scritte da chi viene da una impostazione umanistica e ha passato vent’anni a costruire mondi virtuali prima che diventassero “metaverso”.

Niente hype da Silicon Valley o entusiasmi acritici: sul tavolo ci sono le contraddizioni dell’innovazione tecnologica, i suoi miti fondativi, le narrazioni che usiamo per darle senso. Dai diari ucronici (storie alternative come strumento per capire i nostri bias cognitivi) alle newsletter settimanali sugli sviluppi dell’AI che richiedono aggiornamenti continui perché i trimestri sono già preistoria.

Se cerchi guide su come “fare soldi con ChatGPT” o liste di prompt miracolosi, sei nel posto sbagliato. Se invece ti interessa capire cosa sta succedendo davvero – tra hype, opportunità concrete e derive distopiche – sei nel posto giusto.

Umanesimo digitale senza retorica, analisi senza paternalismi, ironia senza cinismo.


Join the Club

Stay updated with our latest tips and other news by joining our newsletter.