Quando l’Intelligenza Artificiale Smentisce Chi la Nega
Come un paper metodologicamente viziato ha scatenato la reazione più devastante della storia recente dell’AI research
Introduzione: L’Ironia Suprema
Raramente la storia della ricerca sull’intelligenza artificiale ha regalato un momento di ironia così cristallina: Apple pubblica un paper per dimostrare che i modelli di AI non sanno ragionare, e uno di questi modelli – OpenAI o3 – risponde confutando punto per punto le argomentazioni di Cupertino, dimostrando nel processo stesso di saper ragionare meglio dei ricercatori che lo accusavano di incapacità.
Il paper “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity” non è semplicemente un lavoro di ricerca fallimentare. È diventato un caso di studio perfetto su come pregiudizi metodologici, ambiente di test artificialmente limitato e interpretazioni tendenziose possano produrre conclusioni diametralmente opposte alla realtà empirica.
Ma soprattutto, ha rappresentato una figuraccia scientifica senza precedenti per Apple, che in un colpo solo ha perso credibilità nel campo dell’AI research e si è attirata le critiche feroci dell’intera comunità tecnica internazionale.
Gli Errori Metodologici: Un Manuale di Come Non Fare Ricerca
Il Bias di Selezione dei Test: L’Effetto Streetlight Applicato Male
Il paradosso centrale del paper Apple è lampante: gli autori criticano i benchmark matematici e di coding per “data contamination” – ossia per il fatto che le soluzioni sono presenti nei dati di training – e poi scelgono come alternativa quattro puzzle classici (Torre di Hanoi, River Crossing, Block Swap, Checkers Jumper) le cui soluzioni sono presenti in abbondanza nei dataset di training.
Come nota sarcasticamente Sean Goedecke: “Se sei preoccupato che i benchmark di matematica e coding soffrano di contaminazione, perché scegliere puzzle ben noti per i quali sappiamo che le soluzioni esistono nei dati di training?”
È l’applicazione perfetta dell’effetto streetlight: cercare le chiavi solo dove c’è luce, non dove le abbiamo effettivamente perse. Apple ha scelto questi test non perché fossero metodologicamente superiori, ma semplicemente perché erano più facili da scalare in complessità.
L’Ambiente di Test Mutilato: Togliere le Gambe e Poi Lamentarsi che Non Corre
Gli errori più gravi di Apple riguardano le condizioni artificialmente limitate imposte ai modelli:
1. Assenza di Tool Access I modelli sono stati testati senza accesso a strumenti esterni – equivalente a chiedere a un matematico di risolvere calcoli complessi senza carta, penna o calcolatrice, per poi concludere che “non sa fare matematica”. Come evidenziato nel video analizzato, quando i modelli hanno accesso ai tool, non solo risolvono i puzzle dichiarati “impossibili” da Apple, ma mostrano strategie creative: generano file CSV con le 1023 mosse, creano web app interattive, o sviluppano visualizzazioni dinamiche.
2. Mancanza di Extended Inference Time I modelli di reasoning sono progettati per poter “pensare” più a lungo su problemi complessi. Apple ha deliberatamente negato questa caratteristica fondamentale, come “testare una Ferrari con il serbatoio vuoto e in prima marcia”.
3. Versioni Obsolete I test sono stati condotti su versioni precedenti dei modelli, non sulle release più recenti che hanno dimostrato capacità significativamente superiori.
Il Problema della Finestra di Contesto: Confondere Output con Cognizione
L’errore più macroscopico emerge dall’analisi quantitativa della replica: Apple ha confuso limitazioni di output con limitazioni cognitive.
Il formato di valutazione richiedeva di produrre l’intera sequenza di mosse a ogni passo, portando a una crescita quadratica dei token. Con circa 5 token per mossa e i budget allocati (64.000 per Claude-3.7-Sonnet, 100.000 per o3-mini), il presunto “collasso” a zero oltre certe dimensioni è semplicemente un artefatto sperimentale.
Come nota la replica tecnica: “Il ‘collasso’ riportato oltre queste dimensioni è coerente con questi vincoli” – non rappresenta un limite cognitivo, ma un limite di formato imposto artificialmente dai ricercatori.
Le Prove Sul Campo: Quando la Realtà Demolisce la Teoria
Il Contrattacco Empirico: I Modelli Risolvono Quello che Apple Dichiarava Impossibile
La confutazione più devastante arriva dai test indipendenti condotti dalla comunità tecnica. Quando si modifica il formato di richiesta – chiedendo di generare funzioni invece di elencare tutte le mosse – i risultati cambiano drasticamente:
“Si ottiene un’accuratezza molto alta attraverso i modelli testati (Claude-3.7-Sonnet, Claude Opus 4, OpenAI o3, Google Gemini 2.5), completando in meno di 5.000 token” esattamente gli stessi puzzle che Apple dichiarava irrisolvibili.
La Prova dell’Autoconsapevolezza: I Modelli Sanno Quello che Fanno
Un dettaglio cruciale sfuggito ad Apple emerge dalle replicazioni: i modelli riconoscono attivamente quando si avvicinano ai limiti di output. Test indipendenti catturano modelli che affermano esplicitamente: “Il pattern continua, ma per evitare di rendere questo troppo lungo, mi fermerò qui” quando risolvono problemi Torre di Hanoi.
Non è incapacità di ragionare – è autoconsapevolezza pragmatica. I modelli comprendono il problema, sanno risolverlo, ma scelgono strategicamente di non produrre output eccessivamente lunghi.
Il Test Video: La Dimostrazione Live che Smentisce Apple
Il video analizzato fornisce una confutazione empirica in tempo reale. Testando gli stessi puzzle su modelli recenti con accesso ai tool:
- ChatGPT o3: Genera un file CSV con le 1023 mosse complete della Torre di Hanoi a 10 dischi, verificato matematicamente corretto
- Gemini 2.5: Crea una web app interattiva per visualizzare la soluzione dinamicamente
- Claude: Sviluppa autonomamente una visualizzazione grafica senza che fosse richiesta
Tutti e tre risolvono problemi che Apple dichiarava causassero “collasso completo dell’accuratezza”.
o3 Risponde ad Apple: L’Ironia Suprema della Confutazione
L’Esperimento Meta-Cognitivo di The Algorithmic Bridge
Il momento più ironico della vicenda arriva da un esperimento geniale: un blogger ha chiesto a o3 di leggere il paper Apple e confutarlo, creando quello che definisce “un modello di IA che ragiona attraverso – e smentisce – un paper sull’incapacità dei modelli di IA di ragionare”.
Il risultato è una confutazione sistematica che identifica i problemi metodologici con precisione chirurgica, dimostrando nel processo stesso le capacità di reasoning che Apple negava.
Gli Argomenti di o3: Più Rigorosi dei Ricercatori Umani
o3 identifica due errori fondamentali nel paper Apple:
1. Il Problema Analitico “Apple sta misurando la qualità di questa performance, non la cognizione sottostante. Poi estrapolano dai breakdown di performance per concludere che non sta avvenendo alcun vero ragionamento. È come negare l’intelligenza umana perché la nostra performance crolla oltre certe soglie di complessità.”
2. Il Problema della Misurazione
“C’è un problema più profondo: gli LRM sono forzati a presentare il loro ‘ragionamento’ in tracce leggibili dagli umani che mimano i pattern di pensiero umani.” Le chain-of-thought che vediamo sono riassunti, non rappresentazioni fedeli del processo interno.
La Conclusione di o3: Una Lezione di Epistemologia
La riflessione finale di o3 è devastante per Apple: “Quello che Apple misura fondamentalmente non è se i modelli possono ragionare, ma se possono eseguire compiti computazionali specifici sotto vincoli arbitrari. Questi sono due fenomeni molto diversi.”
È una distinzione epistemologica che i ricercatori Apple hanno mancato completamente.
La Reazione della Comunità: Una Stroncatura Senza Precedenti
Le Critiche Tecniche: Demolizione Metodologica
La comunità tecnica non ha usato mezzi termini. Le critiche più taglienti:
Sean Goedecke: “Non penso che il paper ‘The Illusion of Thinking’ di Apple sia particolarmente buono… I modelli decidono presto che centinaia di passi algoritmici sono troppi per tentare, quindi si rifiutano di iniziare.”
LessWrong: “La domanda non è se gli LRM possano ragionare, ma se le nostre valutazioni possano distinguere il ragionamento dalla digitazione.”
Jan Daniel Semrau (Hugging Face): “Le conclusioni sono forse meno sorprendenti di quanto suggerisca la ricezione iniziale per quelli di noi che lavorano sulle metodologie di valutazione del ragionamento.”
L’Analisi su Reddit e Hacker News: Il Pubblico Tecnico Reagisce
Sui forum tecnici, la reazione è stata ancora più brutale. Un commento su Hacker News sintetizza: “È proprio quello che è sbagliato? È nei dati di training e non riesce a completarlo. Semplicemente non sta ragionando, sta facendo seconde ipotesi su molte cose come se stesse ragionando.”
Ma la replica è immediata: se i modelli risolvono gli stessi problemi quando gli viene permesso di usare approcci alternativi, il problema è nel test, non nella capacità.
La Controanalisi Tecnica: Smontaggio Pezzo per Pezzo
Un’analisi su LessWrong demolisce sistematicamente ogni affermazione Apple:
“Quando ho riprodotto i risultati del paper sul compito Torre di Hanoi, ho notato che per n >= 9, Claude 3.7 Sonnet direbbe semplicemente che il compito richiedeva troppi token per essere completato manualmente, fornisce l’algoritmo corretto per Torre di Hanoi, e poi produce una soluzione (incorretta).”
Il punto chiave: il modello conosce l’algoritmo ma sceglie di non eseguirlo manualmente per ragioni pratiche.
Il Costo della Credibilità: Come Apple ha Perso la Reputazione Scientifica
Il Contesto Industriale: L’Elefante nella Stanza
Non possiamo ignorare che Apple è l’unica grande tech company senza un LLM competitivo. Il timing del paper, in prossimità del WWDC, solleva inevitabili sospetti sulla sindrome della “volpe e l’uva”.
Come nota un analista: “È l’unica azienda che è rimasta fuori da questa cosa. È l’unica azienda che non ha un LLM e fa un paper dove dice Cloud, Anthropic, Google, OpenAI, DeepSeek stanno sbagliando tutti quanti.”
L’Effetto Backfire: Quando il Debunking si Rivolta Contro
Il tentativo di Apple di “smontare” l’AI reasoning ha prodotto l’effetto opposto:
- Ha catalizzato una risposta coordinata della comunità tecnica
- Ha dimostrato involontariamente le capacità dei modelli attraverso le confutazioni
- Ha esposto Apple come scientificamente impreparata nel campo AI
- Ha rafforzato la credibilità dei competitor
La Perdita di Autorità Scientifica
Apple si è trovata nella posizione imbarazzante di vedere le proprie conclusioni sistematicamente confutate non solo da ricercatori umani, ma dallo stesso tipo di sistema che stava criticando. È una perdita di autorità scientifica senza precedenti.
Come osserva causticamente un commentatore: “Apple’s findings land at a time when the industry is already grappling with the fallout from AI hallucinations… Such cases highlight how easily AI can mislead, especially when it appears to ‘reason.’ That said, Apple’s research suggests this is not just an issue of hallucination but of fundamental architecture.”
Ma quando la “fundamental architecture” dimostra di funzionare meglio di quanto Apple sostenesse, chi ha il problema di architettura fondamentale?
Le Implicazioni Più Ampie: Lezioni per la Ricerca AI
Il Pericolo dell’Anthropomorphic Fallacy al Contrario
Apple è caduta in quella che potremmo chiamare “fallacia antropomorfica inversa“: negare capacità cognitive perché non si manifestano esattamente come negli umani. Come nota un analista:
“Pensare ai LLM come a stagisti neolaureati in lettere. Non mi aspetterei che un brillante scrittore creativo derivi ed esegua l’algoritmo per una Torre di Hanoi a 10 dischi, così come non mi aspetterei che qualcuno risolva un cubo di Rubik solo guardandolo.”
La Questione dei Benchmark: Oltre l’Effetto Streetlight
Il paper Apple ha involontariamente evidenziato il problema fondamentale dei benchmark attuali: misuriamo quello che è facile misurare, non necessariamente quello che è importante. Ma la soluzione non è scegliere benchmark ancora più limitati.
L’Importanza del Tool Access: L’AI Come Sistema, Non Come Monade
Una riflessione cruciale emerge: perché valutare l’AI “pura” invece dei sistemi AI completi? Come nota LessWrong:
“La domanda chiave è perché dobbiamo considerare l’LLM di per sé, invece di un agente AI composto da un LLM e uno scaffold di agente… Perché dovremmo limitare la nostra discussione degli AGI al solo componente LLM di un sistema AI, invece del sistema AI nel suo complesso?”
Conclusioni: Quando la Scienza si Scontra con l’Ideologia
Il Verdetto della Storia
Il paper “The Illusion of Thinking” rimarrà nella storia dell’AI research come un caso di studio perfetto su come pregiudizi, metodologie scadenti e motivazioni commerciali possano produrre ricerca scientificamente inaccettabile.
Ma più di tutto, rappresenta un momento di ironia cosmica: Apple voleva dimostrare che l’AI non sa ragionare, e l’AI ha risposto ragionando meglio degli autori stessi.
La Lezione per il Futuro
La vicenda insegna che nella ricerca AI contemporanea:
- Le motivazioni commerciali non devono inquinare l’obiettività scientifica
- I test metodologicamente viziati vengono rapidamente identificati dalla comunità
- L’evidenza empirica conta più delle posizioni teoriche
- La trasparenza e la replicabilità sono essenziali
L’Ultimo Paradosso
Apple voleva dimostrare che l’AI è solo “pattern matching avanzato”. Ma quando un sistema di AI può analizzare un paper scientifico, identificarne i difetti metodologici, confutare le conclusioni con argomenti logicamente coerenti e proporre interpretazioni alternative dei dati… beh, se questo è “solo pattern matching”, allora il pattern matching è molto più potente di quanto Apple immaginasse.
Come conclude elegantemente o3 nella sua confutazione: “La prossima volta, i ricercatori Apple potrebbero considerare di lasciare che i modelli che sono così pronti a criticare… li critichino a loro volta. Allora vedremo chi sta effettivamente facendo il ragionamento.”
Il verdetto è chiaro: in questa battaglia tra intelligenza umana e artificiale, l’artificiale ha vinto ragionando.
Riferimenti
- Apple Machine Learning Research – The Illusion of Thinking
- The Illusion of the Illusion of Thinking – ArXiv Replication
- Sean Goedecke – The illusion of “The Illusion of Thinking”
- The Algorithmic Bridge – o3 Risponde ad Apple
- LessWrong – Beware General Claims about “Generalizable Reasoning Capabilities”
- Jan Daniel Semrau – On Apple’s Illusion of Thinking

Leave a comment