Claude Sonnet 4.5: l’arte di far bene le cose difficili

Published on

September 29, 2025

AI, AI pratica, Benchmark e modelli, Programmazione e algoritmi, Scienza e Tecnologia

Ovvero: come Anthropic ha smesso di promettere e ha iniziato a consegnare.

Introduzione

Settembre 2025. Nel frastuono di superlativi sull’AI, Anthropic annuncia Claude Sonnet 4.5 con una frase quasi d’altri tempi: “il miglior modello per il coding al mondo”. Questa volta, però, i numeri reggono — e reggono dove conta: coding reale, uso del computer, agenti che lavorano a lungo senza sbandare. (Anthropic)

1) SWE-bench: dal benchmark alla realtà

77,2% su SWE-bench Verified (fino a 82,0% con test-time compute), ottenuto con un setup minimale: bash + file editing per string replacement. Niente carrozzoni di orchestrazione a coprire le magagne. (Anthropic)
SWE-bench Verified misura la capacità di risolvere issue estratte da repo GitHub reali — non esercizi scolastici. (swebench.com)

Traduzione spiccia: il modello è bravo di suo, non perché lo sorreggono 47 strati di scaffolding.

2) Computer Use: finalmente qualcosa che funziona

61,4% su OSWorld, contro il 42,2% di Sonnet 4 quattro mesi fa: un salto che trasforma il “bel prototipo” in “strumento usabile”. La demo del browser agent scorre senza quella sequenza di ops… retry. (Anthropic)
OSWorld valuta 369 task su app reali (web e desktop) con setup ed esecuzione riproducibili. (os-world.github.io)

Pattern che emerge: l’agentic AI non è una feature, è un paradigma. Servono memoria, permessi, checkpoint, coordinamento. Tutto ciò che hanno imparato con Claude Code adesso confluisce nel Claude Agent SDK. (Claude Docs)

3) Alignment: il dettaglio che tutti ignorano (e non dovrebbero)

Anthropic investe su cose apparentemente noiose — riduzione di sycophancy, deception, power-seeking — e lo documenta nella System Card di Sonnet 4.5, con anche test di mechanistic interpretability. (Anthropic Brand Portal)

C’è poi il tema CBRN: i classifier possono generare falsi positivi, ma vengono mantenuti e migliorati (−10× dai primi test, −2× rispetto a Opus 4). Il modello è rilasciato sotto protezioni ASL-3 come da Responsible Scaling Policy. (Anthropic)

4) I numeri che contano (e cosa significano)

30+ ore di focus su task complessi multi-step (osservato in pratica). (Anthropic)
Prezzi invariati: $3 / $15 per MTok (input/output), con opzione long-context. (Anthropic)
ASL-3 in produzione e miglioramenti su finance, law, medicine, STEM riportati da esperti esterni. (Anthropic)

5) Claude Code: quando l’infrastruttura diventa prodotto

Checkpoint (la feature più richiesta): rollback istantaneo a stati precedenti, utile quando un agent sbaglia strada.
Terminal rinnovato, estensione VS Code nativa, context editing, memory tool.
SDK aperto: la stessa infrastruttura che alimenta Claude Code è disponibile agli sviluppatori come Claude Agent SDK. Non un “getting started” sterilizzato, lo stesso stack. (Anthropic)

6) “Imagine with Claude”: un research preview interessante

Un esperimento di generazione software in tempo reale (zero codice pre-impostato), disponibile per 5 giorni agli abbonati Max. Niente marketing roboante: “guardate cosa si può fare, se vi va provate”. (Anthropic)

Limiti e punti di vista alternativi

Generalizzabilità dei benchmark: 77,2% su SWE-bench Verified e 61,4% su OSWorld sono ottimi, ma non coprono tutto: ambienti aziendali non standard, tool proprietari, workflow con edge case strani restano terreno scivoloso. (swebench.com)
Falsi positivi Safety/CBRN: meglio un blocco in più che uno in meno? Dipende dal contesto. In ambienti produttivi può essere accettabile, in prototipazione creativa può frustrare. (Anthropic)
Costo e latenza del “thinking”: performance top spesso richiedono thinking esteso o test-time compute; non sempre è ciò che serve per task brevi o near-real-time. (Anthropic)
Vendor lock-in vs portabilità: l’SDK è comodo, ma spinge a mettere radici nell’ecosistema Anthropic. Valuta interfacce e astrazioni per restare agnostico dove ti serve. (Claude Docs)

Conclusione

Claude Sonnet 4.5 non è “il modello che risolve tutto”. È un ottimo strumento per fare benissimo alcune cose: coding reale, agent orchestration, computer use e reasoning su compiti lunghi. Il pricing invariato è un segnale di serietà; l’SDK aperto invita a costruire più che a consumare. In un mercato che corre verso sigle altisonanti, qui trovi tool solidi che funzionano davvero — il genere di cose che, fra sei mesi, metti in produzione senza sudare freddo. (Anthropic)

Riferimenti:

Annuncio ufficiale: Introducing Claude Sonnet 4.5 — Anthropic, 29 set 2025. https://www.anthropic.com/news/claude-sonnet-4-5 (Anthropic)
System Card – Claude Sonnet 4.5 (PDF). https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf (Anthropic Brand Portal)
Model page – Claude Sonnet 4.5. https://www.anthropic.com/claude/sonnet (Anthropic)
Claude Agent SDK – Overview. https://docs.claude.com/en/docs/claude-code/sdk/sdk-overview (Claude Docs)
Pricing (Claude Docs). https://docs.anthropic.com/en/docs/about-claude/pricing (Claude Docs)
SWE-bench (sito ufficiale) + SWE-bench Verified (introduzione). https://www.swebench.com/ — https://openai.com/index/introducing-swe-bench-verified/ (swebench.com)
OSWorld (sito e paper). https://os-world.github.io/ — https://arxiv.org/abs/2404.07972 (os-world.github.io)
Responsible Scaling Policy / ASL (overview + aggiornamenti). https://www.anthropic.com/news/anthropics-responsible-scaling-policy — https://www.anthropic.com/rsp-updates (Anthropic)

agentAI, AIpratica, Anthropic, benchmarkAI, ClaudeSonnet, coding, IntelligenzaArtificiale, modelliAI, SDKClaude, Tecnologia

Benvenuto su Salahzar.com

Qui trovi analisi critiche sull’intelligenza artificiale e le sue implicazioni sociali, scritte da chi viene da una impostazione umanistica e ha passato vent’anni a costruire mondi virtuali prima che diventassero “metaverso”.

Niente hype da Silicon Valley o entusiasmi acritici: sul tavolo ci sono le contraddizioni dell’innovazione tecnologica, i suoi miti fondativi, le narrazioni che usiamo per darle senso. Dai diari ucronici (storie alternative come strumento per capire i nostri bias cognitivi) alle newsletter settimanali sugli sviluppi dell’AI che richiedono aggiornamenti continui perché i trimestri sono già preistoria.

Se cerchi guide su come “fare soldi con ChatGPT” o liste di prompt miracolosi, sei nel posto sbagliato. Se invece ti interessa capire cosa sta succedendo davvero – tra hype, opportunità concrete e derive distopiche – sei nel posto giusto.

Umanesimo digitale senza retorica, analisi senza paternalismi, ironia senza cinismo.

Join the Club

Stay updated with our latest tips and other news by joining our newsletter.

Categorie

I tuoi siti preferiti

Roblox Newsroom

Roblox Creator Hub

Roblox Wiki

Claude Sonnet 4.5: l’arte di far bene le cose difficili

Introduzione

1) SWE-bench: dal benchmark alla realtà

2) Computer Use: finalmente qualcosa che funziona

3) Alignment: il dettaglio che tutti ignorano (e non dovrebbero)

4) I numeri che contano (e cosa significano)

5) Claude Code: quando l’infrastruttura diventa prodotto

6) “Imagine with Claude”: un research preview interessante

Limiti e punti di vista alternativi

Conclusione

Riferimenti:

Read Next:

Leave a comment Cancel reply

Benvenuto su Salahzar.com

Join the Club

Categorie

Tag

I tuoi siti preferiti

Claude Sonnet 4.5: l’arte di far bene le cose difficili

Introduzione

1) SWE-bench: dal benchmark alla realtà

2) Computer Use: finalmente qualcosa che funziona

3) Alignment: il dettaglio che tutti ignorano (e non dovrebbero)

4) I numeri che contano (e cosa significano)

5) Claude Code: quando l’infrastruttura diventa prodotto

6) “Imagine with Claude”: un research preview interessante

Limiti e punti di vista alternativi

Conclusione

Riferimenti:

Share this:

Read Next:

Leave a comment Cancel reply

Benvenuto su Salahzar.com

Join the Club

Categorie

Tag

I tuoi siti preferiti