Il pattern della ricerca sensazionalista sull’IA

Quando Apple raddoppia deliberatamente e altri seguono: anatomia di una strategia che sta inquinando la scienza

Una meta-analisi di come la ricerca sull’intelligenza artificiale stia sviluppando un problema sistemico: sacrificare rigore scientifico per conclusioni contro-intuitive che fanno notizia. Con Apple che dimostra che il pattern “funziona” replicandolo due volte in otto mesi.


Nota metodologica: Questo articolo distingue tra fatti osservabili (date di pubblicazione, problemi metodologici documentati, critiche tecniche della comunità) e interpretazioni (motivazioni, strategie, bias). Dove si avanzano ipotesi sulle intenzioni degli autori, questo viene esplicitamente segnalato. L’obiettivo è analizzare pattern sistemici nella ricerca AI, non attribuire malafede senza prove definitive.


Non due studi, ma tre: Apple raddoppia la posta

Nell’ultimo anno, tre studi hanno fatto scalpore nel mondo dell’intelligenza artificiale. Ma c’è un dettaglio inquietante: due vengono dallo stesso team:

7 ottobre 2024 – Apple: “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models” (arXiv:2410.05229)
Titolo mediatico: Gli LLM non sanno ragionare, è solo pattern matching

Giugno 2025 – Apple: “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models” (Apple ML Research)
Titolo mediatico: Gli LLM non pensano davvero, è un’illusione

~6 ottobre 2025 – Penn State: “Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy” (arXiv:2510.04950)
Titolo mediatico: Insulta il tuo LLM per risultati migliori
Pubblicato il 6 ottobre 2025 (al momento della stesura di questo articolo, 5 giorni fa)

Tre claim sensazionali. Tre ondate di copertura mediatica. E, sorprendentemente, lo stesso identico errore metodologico di fondo.

Ma il dettaglio più inquietante è questo: Apple ha replicato il pattern due volte in 8 mesi. Non è un errore metodologico accidentale. È o una strategia deliberata (marketing mascherato da ricerca) o un bias di conferma sistemico (credono davvero nella tesi e forzano i dati a supportarla). Entrambi sono profondamente problematici.

Questo articolo non è una critica a questi specifici ricercatori, ma un’analisi di un pattern sistemico che non solo è emerso, ma che si sta auto-replicando e istituzionalizzando: studi che confondono correlazione con causazione, ignorano variabili confondenti evidenti, e pubblicano conclusioni accattivanti ma metodologicamente fragili.

Il fatto che lo studio Penn State sia appena uscito e che Apple abbia raddoppiato la sua strategia rende questa analisi particolarmente urgente: siamo nella finestra temporale critica dove la comunità può ancora intervenire prima che questo diventi il nuovo standard di “ricerca ad alto impatto”.

Il template dell’errore scientifico

Entrambi gli studi seguono questo schema:

1. Trova una correlazione inaspettata

  • Apple: Cambi un numero in un problema matematico → l’accuratezza cala
  • Penn State: Usi un prompt scortese → l’accuratezza sale

2. Attribuisci causazione alla variabile più narrativamente interessante

  • Apple: “Non c’è ragionamento!” (ignorando che hai cambiato anche la complessità computazionale)
  • Penn State: “La scortesia funziona!” (ignorando che hai cambiato lunghezza, direttività, contenuto informativo)

3. Salta i controlli necessari

  • Apple: Non testa se anche gli umani calano con le stesse varianti
  • Penn State: Non controlla per lunghezza del prompt o contenuto informativo

4. Pubblica con un titolo contro-intuitivo

  • Ottiene visibilità mediatica
  • Crea narrative dannose
  • Contamina l’ecosistema con pratiche sbagliate

5. (Bonus) Hai un conflitto d’interesse non dichiarato

  • Apple: Pubblica “i modelli della concorrenza non ragionano” mentre lancia Apple Intelligence
  • Penn State: Genera buzz accademico con claim provocatorio

Caso 1: Apple e il “ragionamento impossibile” (ottobre 2024)

Cosa hanno fatto

Il team Apple ha preso il benchmark GSM8K (problemi di matematica a livello scuola elementare) e creato GSM-Symbolic: template simbolici che generano varianti degli stessi problemi cambiando:

  • Nomi dei personaggi (“Oliver” → “Emma”)
  • Valori numerici (44 kiwi → 57 kiwi)
  • Aggiunta di “clausole distraenti” (informazioni irrilevanti)

Risultati: Performance cala del 5-15% cambiando numeri, fino al 65% aggiungendo clausole distraenti.

Conclusione: “Gli LLM non sono capaci di ragionamento logico genuino; replicano pattern dai dati di training.”

Cosa hanno realmente misurato

Non hanno misurato “ragionamento sì/no”. Hanno misurato:

Quando cambiano i numeri:

  • ❌ “Capacità di ragionamento”
  • ✅ Complessità aritmetica (57 è più difficile di 44 per calcoli multi-step)
  • ✅ Rarità nei dati di training (alcuni numeri appaiono più spesso)
  • ✅ Difficoltà di tokenizzazione (numeri a due cifre = più token)
  • ✅ Effetti di carry-over nei calcoli

Quando cambiano i nomi:

  • ❌ “Capacità di ragionamento”
  • ✅ Familiarità lessicale (alcuni nomi sono più comuni nei training data)
  • ✅ Associazioni semantiche (nomi diversi possono attivare pattern diversi)

Quando aggiungono clausole distraenti:

  • ❌ “Capacità di ragionamento”
  • ✅ Lunghezza del contesto (più token = più attentional complexity)
  • ✅ Difficoltà di parsing (identificare info rilevante vs irrilevante)
  • ✅ Ambiguità sintattica (dove attaccare la clausola nella rappresentazione)

Il problema metodologico cruciale

Non hanno controlli umani. Non sappiamo se gli umani mantengono performance costante con queste varianti.

Spoiler: non lo fanno. Gli studi di psicologia cognitiva dimostrano che anche gli umani:

  • Fanno più errori con numeri “scomodi” (es. 57 vs 50)
  • Sono distratti da informazioni irrilevanti inserite nel testo
  • Performano peggio con problemi più lunghi

Se applichi lo stesso criterio agli umani, concluderesti che “gli umani non sanno ragionare, è solo pattern matching”. Il che è tecnicamente vero ma filosoficamente inutile.

La spiegazione più parsimoniosa

Gli LLM hanno capacità di ragionamento, ma è:

  • Probabilistica (non deterministica)
  • Sensibile al contesto (come quella umana)
  • Limitata dalla rappresentazione (tokenizzazione, lunghezza, ecc.)
  • Imperfetta (come quella umana)

Dire “non c’è ragionamento” perché la performance non è perfetta e invariante è come dire “le auto non si muovono” perché vanno più lente in salita.

L’agenda nascosta

Apple pubblica questo studio il 7 ottobre 2024, pochi mesi dopo l’annuncio di Apple Intelligence al WWDC il 10 giugno 2024. Il messaggio implicito: “I modelli esterni (GPT, Claude) non ragionano davvero, meglio affidarsi alle nostre soluzioni on-device”.

È ricerca o marketing travestito?

Caso 1.5: Apple raddoppia – “The Illusion of Thinking” (giugno 2025)

Il pattern si auto-replica

Otto mesi dopo GSM-Symbolic, Apple pubblica un secondo paper con identica struttura narrativa ma target diverso: i Large Reasoning Models (LRMs) come o1, Claude 3.7, DeepSeek-R1.

Claim: “I modelli non pensano davvero, è un’illusione. Il loro ragionamento è superficiale.”

Il setup sperimentale

Apple crea puzzle con complessità controllabile:

  • Tower of Hanoi
  • River Crossing
  • Checker Jumping
  • Blocks World

Aumenta la complessità e osserva che i modelli:

  1. Collassano completamente oltre certe soglie
  2. Prima “pensano di più” (più token), poi improvvisamente “si arrendono” (meno token)
  3. Falliscono anche quando hanno token budget sufficiente

Conclusione: “Non c’è vera capacità di ragionamento. È un’illusione di pensiero.”

I problemi metodologici (già identificati dalla comunità)

Le critiche sono arrivate rapidamente, e sono devastanti:

1. Token limits confusi con cognitive limits Molti “fallimenti” erano dovuti a limiti di output artificiali, non a incapacità di reasoning. I modelli dicevano esplicitamente “mi fermo per limite di lunghezza” ma venivano classificati come “failure to reason”. Come dare a uno studente un test di matematica ma bloccargli la penna dopo 10 minuti e concludere “non sa fare matematica”.

2. Problemi matematicamente impossibili Alcuni puzzle River Crossing erano impossibili da risolvere (capacità della barca insufficiente per qualsiasi strategia). I modelli venivano penalizzati per non risolverli. È come penalizzare un SAT solver per non trovare una soluzione a un sistema inconsistente.

3. Evaluation framework difettoso Il sistema automatico di valutazione misclassificava:

  • Troncamenti per limite token → “reasoning breakdown”
  • Output formatting issues → “cognitive failure”
  • Dichiarazioni esplicite di constraint → “giving up”

4. Quando corretto il setup Ricercatori esterni hanno rifatto gli esperimenti chiedendo ai modelli di generare codice (generating functions) invece di elencare ogni step. Risultato: performance eccellente anche su problemi etichettati “complete failure” nel paper Apple.

Questo è cruciale: non stiamo parlando di cambiare il modello o dargli più risorse. Stiamo parlando di cambiare il paradigma di evaluation (codice vs enumerazione) e ottenere risultati drammaticamente diversi. Suggerisce che il “collasso” misurato da Apple è sensibile al format di output scelto, non necessariamente una prova di assenza di reasoning.

Perché questo è molto peggio del primo paper

Non è un errore accidentale. Apple ha avuto 8 mesi per:

  • Leggere le critiche a GSM-Symbolic
  • Capire i problemi metodologici
  • Migliorare il setup sperimentale

Invece ha replicato esattamente lo stesso pattern:

  • Confondere engineering constraints (limiti token, formato output) con cognitive limitations
  • Non testare controlli che separerebbero le variabili
  • Claim binario (“non c’è reasoning”) invece di graduato (“reasoning con limitazioni X,Y,Z”)
  • Evaluation framework che classifier artifacts come failures

Il doppio errore: strategia o bias?

Ci sono solo due spiegazioni possibili, entrambe gravissime:

Spiegazione A: Strategia deliberata Apple sa che la metodologia è difettosa ma pubblica comunque perché:

  • Il primo paper ha funzionato (visibilità, PR, supporto a Apple Intelligence)
  • Il pubblico non legge la metodologia, solo i titoli
  • Le correzioni arrivano troppo tardi per fare danno
  • È marketing mascherato da ricerca scientifica

Verdetto: Malafede intellettuale e disonestà scientifica.

Spiegazione B: Bias di conferma sistemico Il team Apple crede genuinamente che gli LLM “non ragionino” e:

  • Progetta esperimenti per confermare la tesi preconcetta
  • Ignora spiegazioni alternative anche quando evidenti
  • Non implementa controlli che potrebbero falsificare la loro ipotesi
  • Interpreta ambiguità sempre a favore della loro narrativa

Verdetto: Bad science guidata da pregiudizi cognitivi.

Entrambi sono errori gravissimi. Il primo è disonestà, il secondo è incompetenza mascherata da rigore. Ma per un’azienda con le risorse e l’expertise di Apple, la spiegazione B è quasi più preoccupante della A: significa che hanno costruito una cultura di ricerca con blind spots sistemici.

L’implicazione inquietante

Apple non ha fatto “un errore” corretto dopo feedback. Ha fatto lo stesso errore due volte a otto mesi di distanza. Questo suggerisce:

  1. Incentivi interni distorti: Il team viene premiato per visibilità mediatica, non per rigore metodologico
  2. Assenza di controlli di qualità: Nessuno interno ad Apple ha bloccato il secondo paper dicendo “aspetta, abbiamo gli stessi problemi del primo”
  3. Echo chamber: Il team è isolato dal feedback critico della comunità esterna
  4. Agenda aziendale che domina ricerca: La narrativa “modelli esterni non ragionano” serve gli interessi commerciali di Apple, quindi la ricerca viene piegata a supportarla

Non è più “ricerca con limiti metodologici”. È ricerca sistemicamente compromessa.

Caso 2: Penn State e la “scortesia efficace” (ottobre 2025)

(Già analizzato in dettaglio nell’articolo precedente, qui riassumiamo i punti chiave)

Cosa hanno fatto

50 domande a scelta multipla, 5 varianti di tono (molto educato → molto scortese), 250 prompt totali.

Risultati: 80.8% con “molto educato”, 84.8% con “molto scortese”.

Conclusione: “I prompt scortesi migliorano l’accuratezza.”

Cosa hanno realmente misurato

Non hanno misurato “tono”. Hanno misurato:

  • ✅ Lunghezza del prompt (3 token vs 11 token)
  • ✅ Contenuto informativo (“please” vs “solve this problem”)
  • ✅ Direttività (condizionale vs imperativo)
  • ✅ Posizione della domanda nella sequenza
  • Autocontaminazione critica: GPT genera domande (usando “Deep Research”) → GPT risponde alle stesse domande

Quest’ultimo punto è particolarmente problematico: il modello potrebbe performare meglio semplicemente perché riconosce pattern stilistici nelle domande che ha generato, indipendentemente dal “tono”.

Il problema metodologico identico

Come Apple, non hanno separato le variabili. Stanno confrontando:

Educato: "Saresti così gentile da considerare?"  
Scortese: "Povera creatura, sai almeno come risolvere questo?"

È come confrontare:

Auto A: Panda con 70 CV, dipinta di rosso
Auto B: Ferrari con 800 CV, dipinta di blu

E concludere: “Il blu fa andare più veloce!”

Il pattern profondo: perché succede

1. Pressure per pubblicare

Il sistema accademico premia novelty più che rigore. Un paper che dice:

  • “Abbiamo testato X e non abbiamo trovato effetti significativi” → file drawer
  • “Abbiamo scoperto che X causa Y in modo contro-intuitivo!” → accettazione, citazioni, visibilità

2. Il modello che si auto-rinforza – con Apple che raddoppia deliberatamente

Ed ecco il dettaglio più inquietante: non stiamo parlando di tre team indipendenti che fanno lo stesso errore. Stiamo parlando di Apple che ha pubblicato due paper con pattern metodologici paralleli in otto mesi, senza incorporare le principali critiche emerse sul primo.

7 ottobre 2024: Apple pubblica GSM-Symbolic → claim sensazionale → visibilità massiccia → diventa caso di studio su “come pubblicare paper che fanno notizia”

Giugno 2025: Apple pubblica Illusion of Thinking → stessa formula, stessi pattern di problemi metodologici, stesso risultato mediatico

Ottobre 2025: Penn State pubblica Mind Your Tone → altri ricercatori esterni adottano il pattern

Non è speculazione: il pattern ha dimostrato di funzionare due volte per Apple. Ogni paper ha ottenuto:

  • Copertura su tutti i principali tech media
  • Migliaia di citazioni in pochi mesi
  • Rinforzo della narrativa “Apple è leader nella ricerca AI critica”
  • Zero conseguenze per i problemi metodologici (le correzioni arrivano dopo il buzz)

Perché Apple dovrebbe cambiare strategia? Funziona. E questo è terrificante.

Perché significa che il problema non è “ricercatori che fanno errori metodologici”. È un sistema che premia questi errori quando producono visibilità. E Apple, con risorse e expertise enormi, ha scelto consciamente di sfruttare questo sistema due volte in otto mesi.

Il doppio errore di Apple (strategia deliberata O bias sistemico) è particolarmente grave perché:

  1. Se è strategia → è malafede scientifica istituzionalizzata
  2. Se è bias → significa che l’organizzazione ha blind spots talmente profondi da non accorgersi di ripetere lo stesso errore

Entrambe le spiegazioni sono catastrofiche per la credibilità della ricerca Apple AI.

E Penn State, pubblicando Mind Your Tone pochi giorni fa, dimostra che il pattern si sta diffondendo oltre Apple: altri team vedono il “successo” e replicano la formula.

Siamo di fronte a un “success pattern” che si sta cristallizzando. Non è un’anomalia del 2024. È la nuova normalità della ricerca AI ad alto impatto mediatico nel 2025.

3. Review process inadeguato

I reviewer dovrebbero bloccare questi paper con “Major Revision: aggiungere controlli per variabili confondenti”. Invece passano perché:

  • I risultati sono “statisticamente significativi” (significatività ≠ validità)
  • Il paper “fa discutere” (controversia = citazioni)
  • Mancano expertise specifiche nei review panel

4. Amplificazione mediatica

La stampa prende il titolo sensazionale senza leggere la metodologia:

  • “Scienziati dimostrano che gli LLM non ragionano!”
  • “Insulta ChatGPT per risultati migliori!”

Il danno reputazionale di pubblicare una correzione è minimo rispetto al beneficio del buzz iniziale.

5. Mancanza di replication culture

In psicologia, dopo la “crisis of replication”, si è sviluppata una cultura di preregistrazione e replication studies. Nell’AI questo non esiste ancora. Risultati dubbiosi rimangono non verificati per mesi o anni.

6. Incentivi economici e competitivi

  • Apple vuole mostrare limiti della concorrenza
  • Università vogliono visibilità mediatica
  • Ricercatori vogliono paper citati

Tutti questi incentivi spingono verso claim sensazionali, non verso rigore metodologico.

7. Il caso Apple: quando raddoppiare solleva domande serie

Il fatto che Apple abbia pubblicato due paper con identici difetti metodologici in otto mesi merita una sezione a sé, perché solleva interrogativi importanti sulla natura di questi errori.

Due ipotesi interpretative (nessuna delle due dimostrata con certezza, ma entrambe problematiche):

Ipotesi A: Possibile strategia deliberata

Se Apple fosse consapevole dei limiti metodologici ma avesse pubblicato comunque, significherebbe priorità alla visibilità mediatica:

Elementi che supportano questa interpretazione:

  • Otto mesi tra i due paper: tempo teoricamente sufficiente per incorporare le principali critiche emerse sul primo (controlli umani, separation of variables, evaluation design)
  • Risorse enormi: team con expertise per metodologia più rigorosa
  • Stessi identici pattern di errore: confondere engineering constraints (token limits, formato output) con limiti cognitivi
  • Timing allineato con lancio prodotti: entrambi supportano narrativa “modelli esterni non affidabili”
  • Assenza di correzioni pubbliche, chiarimenti metodologici, o ritrattazioni nonostante critiche documentate nella comunità tecnica

Implicazioni se vera: Sarebbe uso della credibilità accademica per obiettivi commerciali, sfruttando il fatto che il pubblico legge titoli più che metodologia, e che le critiche arrivano dopo il buzz iniziale.

Nota critica importante: Parte significativa delle critiche al secondo paper Apple riguardano problemi di evaluation design (scelta di paradigma enumerazione vs codice, constraint artificiali, task impossibili) più che bias intenzionale. Questo non nega il pattern osservato, ma suggerisce che i limiti potrebbero derivare da scelte metodologiche discutibili piuttosto che necessariamente da agenda deliberata.

Ipotesi B: Bias di conferma sistemico

Se il team Apple credesse genuinamente nella tesi e stesse inconsciamente piegando i dati a supportarla:

Elementi che supportano questa interpretazione:

  • Coerenza narrativa: entrambi i paper sostengono la stessa tesi di fondo
  • Commitment escalation: dopo il primo paper, possibile investimento emotivo nella tesi
  • Possibile echo chamber: ambiente che rinforza la narrativa senza challenge critico sufficiente
  • Motivated reasoning: interpretazione di ambiguità sempre a favore dell’ipotesi preferita

Implicazioni se vera: Indicherebbe una cultura di ricerca con blind spots sistemici dove pregiudizi cognitivi potrebbero dominare su evidenza contraria, e dove il review interno potrebbe non intercettare problemi evidenti dall’esterno.

Nota critica: Anche questa è un’interpretazione basata su pattern osservabili, non su conoscenza diretta dei processi interni.

Perché entrambe le interpretazioni sono preoccupanti

Se fosse A: Apple avrebbe dimostrato disponibilità a sacrificare integrità scientifica per vantaggio commerciale.

Se fosse B: Apple avrebbe dimostrato assenza di controlli di qualità adeguati per identificare bias metodologici ripetuti.

In entrambi i casi: Il pattern osservato solleva questioni serie sulla credibilità della ricerca Apple AI. Ma è importante sottolineare che non possiamo determinare con certezza quale interpretazione sia corretta (o se esista una terza spiegazione) senza accesso ai processi interni.

Ciò che è certo: Apple ha pubblicato due paper in otto mesi con problemi metodologici paralleli, ha avuto ampio tempo per ricevere e incorporare feedback critico sul primo, e ha scelto di non farlo. Questo è un fatto osservabile. Le motivazioni restano interpretazioni.

L’aspetto più inquietante: l’effetto domino

Penn State pubblica Mind Your Tone pochi giorni fa usando una formula simile. Altri vedranno il “successo” di Apple (due paper, visibilità massiccia, zero conseguenze) e replicheranno.

Apple non ha solo fatto un errore due volte. Ha dimostrato che l’errore è una strategia vincente.

E questo è il vero danno: non i singoli paper, ma l’esempio che stabiliscono per il resto del campo.

Il danno collaterale reale (e l’urgenza di intervenire ora)

Questi studi non sono innocui esercizi accademici. Creano contaminazione pratica. E con lo studio Penn State pubblicato 5 giorni fa, siamo nella finestra critica dove l’intervento può ancora fare la differenza.

Per gli sviluppatori

Già in corso (dopo Apple, ottobre 2024):

  • Scetticismo eccessivo verso LLM per task di reasoning
  • Preferenza per sistemi simbolici anche dove LLM sarebbero più adatti
  • Perdita di fiducia in strumenti che funzionano

In arrivo (dopo Penn State, se non interveniamo):

  • Sprecano tempo ottimizzando su variabili fantasma (“devo insultare il modello?”)
  • Codebases piene di prompt scortesi e incomprensibili
  • Sacrificio di leggibilità e maintainability per un boost fantasma del 2-4%

Per il dibattito pubblico

Consolidato in 1 anno (Apple, 2024-2025):

  • Narrativa consolidata: “l’IA non capisce nulla!”
  • Base per regolamentazioni premature
  • Confusione tra limiti reali e artefatti metodologici

Rischio immediato (Penn State, ottobre 2025):

  • “L’IA va trattata male per funzionare” come meme culturale
  • Normalizzazione di interazioni tossiche con sistemi AI
  • Ulteriore erosione della comprensione pubblica di come funzionano questi sistemi

Per la ricerca futura

Già visibile (post-Apple):

  • Proliferazione di paper “LLM limitations” con metodologie simili
  • Risorse consumate per “replicare” risultati che sono artefatti

Prossima ondata (se Penn State fa scuola):

  • Focus su pseudo-problemi (“quale insulto ottimizza meglio?”)
  • Abbassamento ulteriore degli standard metodologici
  • Normalizzazione di “interesting > rigorous”

La finestra di intervento è ADESSO: prima che lo studio Penn State accumuli citazioni, generi follow-up, e diventi “letteratura consolidata”.

Come riconoscere questi pattern (checklist per lettori critici)

Quando leggi un paper sull’IA con claim sensazionale, chiediti:

🚩 Red flag metodologici

1. Hanno controllato le variabili confondenti evidenti?

  • Se cambiano A e B insieme e attribuiscono l’effetto solo ad A → suspicious
  • Se non riportano di aver testato A isolatamente → red flag

2. C’è un gruppo di controllo adeguato?

  • Per claim su “ragionamento”, serve controllo umano
  • Per claim su “tono”, servono varianti con tono isolato

3. Riportano effect size e confidence intervals?

  • Se solo p-values → suspicious
  • Se nessuna discussione su practical significance → red flag

4. Il dataset è indipendente dal modello testato?

  • Se GPT genera domande per GPT → contamination risk
  • Se testano solo su benchmark pubblici → overfitting risk

5. Hanno fatto correzioni per multiple comparisons?

  • 10+ test statistici senza Bonferroni/Holm → inflated p-values

🚩 Red flag narrativi

1. Il titolo contraddice il consenso scientifico

  • “Gli LLM non ragionano” vs anni di evidenza che mostrano capacità emergenti
  • “La scortesia migliora performance” vs tutto quello che sappiamo su prompt engineering

2. L’interpretazione è binaria invece che graduata

  • “Ragionamento sì/no” invece di “ragionamento con limitazioni X, Y, Z”
  • “Scortesia causa X” invece di “bundle di fattori correlano con X”

3. Non discutono spiegazioni alternative

  • Se presentano UNA spiegazione come se fosse l’UNICA → suspicious

4. Conflitti d’interesse potenziali

  • Competitor che critica competitor
  • Università che cerca visibilità mediatica

🚩 Red flag di amplificazione

1. Titolo mediatico ≠ claim del paper

  • “Prova che LLM non ragionano” vs “mostra limitazioni in specifici scenari”

2. Autori partecipano attivamente all’hype

  • Press release universitario sensazionalistico
  • Interviste che esagerano i risultati

3. Manca discussione onesta dei limiti

  • Sezione “Limitations” assente o generica
  • Non discutono cosa potrebbe smentire i loro risultati

Come dovrebbe essere la ricerca seria

Studio Apple rifatto correttamente

Design pulito:

  1. Controllo umano: Testare umani (laureati in STEM) sulle stesse varianti
  2. Separare variabili:
    • Cambiare SOLO numeri (mantenendo complessità computazionale)
    • Cambiare SOLO nomi (mantenendo frequenza nei corpus)
    • Aggiungere SOLO clausole (controllando per lunghezza)
  3. Analisi granulare: Non “ragionamento sì/no” ma “ragionamento con sensitività X a fattore Y”
  4. Benchmark esterni: Testare su dataset creati da umani, non auto-generati

Conclusione onesta:

“Gli LLM mostrano capacità di ragionamento ma con maggiore sensitività a variazioni superficiali rispetto agli umani. La performance cala del 5-15% con cambiamenti numerici (vs 2-5% negli umani) e del 30-65% con clausole distraenti (vs 10-20% negli umani). Questo suggerisce ragionamento genuino ma meno robusto e più dipendente da pattern specifici del training.”

Studio Penn State rifatto correttamente

Design pulito:

  1. Lunghezza controllata: Tutti i prefissi con stesso numero di token
  2. Design fattoriale: Tono × Lunghezza × Direttività separati
  3. Dataset esterno: MMLU, ARC-Challenge, non auto-generato
  4. Metriche multiple: Accuracy, logprobs, calibration, format compliance

Conclusione onesta:

“I prompt con maggiore specificità e direttività mostrano un miglioramento del 2-4% in accuracy. Il tono emotivo, quando controllato per altri fattori, non mostra effetto significativo. L’effetto osservato inizialmente era confuso con lunghezza del prompt e contenuto informativo.”

Il meta-problema: incentivi distorti nella ricerca AI

Questi due casi sono sintomi di un problema più profondo: la ricerca sull’IA sta diventando troppo simile al marketing.

Caratteristiche del buon marketing

  • Claim accattivanti e memorabili
  • Semplificazione estrema
  • Focus su differenziazione competitiva
  • Timing strategico per massimizzare visibilità

Caratteristiche della buona scienza

  • Claim cauti e qualificati
  • Complessità proporzionale al fenomeno
  • Focus su verità anche se scomoda
  • Timing basato su rigore, non su buzz

Il problema: Molti paper recenti sull’IA hanno caratteristiche della prima lista, non della seconda.

Cosa possiamo fare (soluzioni sistemiche)

Per le conferenze e riviste

1. Standard metodologici più alti

  • Mandatory preregistration per studi comparativi
  • Richiesta di effect size e confidence intervals
  • Verifica di correzioni per multiple comparisons

2. Review process più robusto

  • Almeno un reviewer con background in metodi sperimentali
  • Checklist obbligatoria per variabili confondenti
  • Revisione delle sezioni “limitations” come criterio primario

3. Incentivi per replication studies

  • Track speciale per paper che replicano/smentiscono risultati precedenti
  • Citazioni contano anche per “invalidazione” non solo per “conferma”

Per i ricercatori

1. Pre-registrazione degli studi

  • Dichiarare ipotesi e metodologia prima di vedere i dati
  • Riduce p-hacking e hypothesizing after results known (HARK)

2. Discussione onesta delle alternative

  • Presentare le 3-5 spiegazioni più plausibili, non solo quella preferita
  • Discutere esplicitamente cosa potrebbe falsificare i risultati

3. Collaborazione con metodologi

  • Per studi comparativi, coinvolgere esperti di experimental design
  • Peer review interno prima di submission

Per gli sviluppatori e practitioner

1. Scetticismo costruttivo

  • Leggi la sezione “methods” non solo l’abstract
  • Chiedi “hanno controllato per X?” dove X è la spiegazione ovvia

2. Replication in proprio

  • Se un risultato sembra utile, testalo nel tuo contesto
  • Condividi i tuoi risultati anche se contraddicono il paper

3. Focus su evidenza robusta

  • Preferisci tecniche con multipli studi replicati
  • Diffida di risultati isolati sensazionalistici

Per la stampa e divulgazione

1. Intervista metodologi indipendenti

  • Non solo gli autori dello studio
  • Cerca commenti da esperti che possano identificare limiti

2. Evidenzia i limiti quanto i risultati

  • “Studio mostra X, ma con limitazioni A, B, C”
  • Usa condizionale: “potrebbe suggerire” non “dimostra”

3. Follow-up su replication

  • Quando uno studio viene smentito, dagli visibilità equivalente all’originale

Conclusione: verso una cultura di rigore (e l’urgenza di agire ora)

Il problema non sono i singoli ricercatori di Apple o Penn State. Sono persone competenti che lavorano in un sistema con incentivi distorti. Il problema è sistemico e, come dimostrano i tre studi in 12 mesi (due di Apple), è un problema in corso e in accelerazione.

Ottobre 2024: Apple GSM-Symbolic stabilisce il template
Giugno 2025: Apple Illusion of Thinking → replica il pattern senza incorporare le critiche principali
Ottobre 2025: Penn State Mind Your Tone → altri adottano il modello (6 ottobre 2025)
2026: ?

L’intelligenza artificiale è troppo importante—troppo centrale per economia, società, sicurezza—per permettere che la ricerca sia guidata da logiche di clickbait. E siamo nel momento critico: lo studio Penn State è stato appena pubblicato, e Apple ha dimostrato con due paper in otto mesi che questo approccio produce risultati (visibilità, citazioni, copertura mediatica) anche quando solleva questioni metodologiche significative.

La comunità può ancora:

  • Richiedere replication studies con controlli adeguati
  • Produrre critica metodologica prima che Penn State accumuli citazioni
  • Impedire che “insulta il tuo LLM” diventi best practice consolidata
  • Segnalare ad Apple che il pattern è stato identificato e non è più accettabile
  • Alzare gli standard delle venue che accettano questi paper

Abbiamo bisogno di:

  • Rigore più che novità
  • Replicabilità più che sensazionalismo
  • Onestà più che competizione
  • Complessità più che semplificazione

I tre studi analizzati mostrano lo stesso pattern, con Apple che lo ha ripetuto in otto mesi senza incorporare le critiche metodologiche emerse: conclusioni accattivanti costruite su fondamenta metodologiche fragili. Non sono un’anomalia del 2024, sono il sintomo di un campo che sta sviluppando cattive abitudini sistemiche. E con Apple che ha dimostrato che questo approccio genera visibilità e citazioni nonostante le critiche, il rischio è che diventi lo standard.

La buona notizia? Abbiamo gli strumenti per correggere la rotta:

  • Metodologie consolidate dalla psicologia sperimentale
  • Best practices dalla crisi di replicazione
  • Comunità critica disposta a chiamare BS quando lo vede
  • E soprattutto: abbiamo identificato il pattern PRIMA che si consolidi definitivamente

La cattiva notizia? Richiede che ricercatori, reviewer, giornalisti e lettori facciano il lavoro noioso di verificare, dubitare, replicare. Non esistono scorciatoie per la scienza seria.

E forse, in fondo, è questo il vero insegnamento di questi tre studi in 12 mesi: diffida sempre di chi ti promette la scorciatoia sensazionale.

Che sia “insulta il tuo LLM” (Penn State, ottobre 2025), “gli LLM non pensano” (Apple, giugno 2025), o “gli LLM non ragionano” (Apple, ottobre 2024) — se sembra troppo semplice per essere vero, probabilmente lo è.

E stavolta abbiamo l’opportunità di intervenire prima che Apple pubblichi il terzo paper con lo stesso pattern.


Riferimenti

Studi analizzati

Mirzadeh, I., et al. (2024). GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. arXiv:2410.05229. https://arxiv.org/abs/2410.05229

Apple Machine Learning Research. (2025). The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity. Pubblicato giugno 2025. https://machinelearning.apple.com/research/illusion-of-thinking | arXiv:2506.06941 https://arxiv.org/abs/2506.06941

Dobariya, O., & Kumar, A. (2025). Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy. arXiv:2510.04950. https://arxiv.org/abs/2510.04950 [Pubblicato ~6 ottobre 2025]

Critiche tecniche e discussione

Arize AI. (2025). The Illusion of Thinking: What the Apple AI Paper Says About LLM Reasoning. Analisi tecnica delle critiche metodologiche al paper Apple. https://arize.com/blog/the-illusion-of-thinking-what-the-apple-ai-paper-says-about-llm-reasoning/

RCR Wireless News. (2025). Anthropic fires back – AI reasoning works, Apple study criticized for token limits and evaluation issues. https://www.rcrwireless.com/20250616/ai-ml/anthropic-apple-ai-reasoning

The Guardian. (2025). Advanced AI suffers ‘complete accuracy collapse’ in face of complex problems, study finds. Copertura mediatica dello studio Apple. https://www.theguardian.com/technology/2025/jun/09/apple-artificial-intelligence-ai-study-collapse

Contesto aziendale

Apple. (2024). Introducing Apple Intelligence for iPhone, iPad, and Mac. Press release, 10 giugno 2024. https://www.apple.com/newsroom/2024/06/introducing-apple-intelligence-for-iphone-ipad-and-mac/

Metodologia e limiti

Gonen, H., et al. (2022). Demystifying prompts in language models via perplexity estimation. arXiv:2212.04037. https://arxiv.org/abs/2212.04037

Sclar, M., et al. (2023). Quantifying Language Models’ Sensitivity to Spurious Features in Prompt Design. arXiv:2310.11324. https://arxiv.org/abs/2310.11324

Zhao, T., et al. (2021). Calibrate Before Use: Improving Few-Shot Performance of Language Models. arXiv preprint. https://arxiv.org/abs/2102.09690

Capacità di ragionamento

Webb, T., Holyoak, K. J., & Lu, H. (2023). Emergent analogical reasoning in large language models. Nature Human Behaviour, 7(9), 1526–1541. https://doi.org/10.1038/s41562-023-01659-w

Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903. https://arxiv.org/abs/2201.11903

Kojima, T., et al. (2022). Large Language Models are Zero-Shot Reasoners. arXiv:2205.11916. https://arxiv.org/abs/2205.11916

Crisi di replicazione e metodi

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251). https://doi.org/10.1126/science.aac4716

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22(11), 1359-1366. https://doi.org/10.1177/0956797611417632

Nosek, B. A., et al. (2018). The preregistration revolution. Proceedings of the National Academy of Sciences, 115(11), 2600-2606. https://doi.org/10.1073/pnas.1708274114

Leave a comment


Benvenuto su Salahzar.com

Qui trovi analisi critiche sull’intelligenza artificiale e le sue implicazioni sociali, scritte da chi viene da una impostazione umanistica e ha passato vent’anni a costruire mondi virtuali prima che diventassero “metaverso”.

Niente hype da Silicon Valley o entusiasmi acritici: sul tavolo ci sono le contraddizioni dell’innovazione tecnologica, i suoi miti fondativi, le narrazioni che usiamo per darle senso. Dai diari ucronici (storie alternative come strumento per capire i nostri bias cognitivi) alle newsletter settimanali sugli sviluppi dell’AI che richiedono aggiornamenti continui perché i trimestri sono già preistoria.

Se cerchi guide su come “fare soldi con ChatGPT” o liste di prompt miracolosi, sei nel posto sbagliato. Se invece ti interessa capire cosa sta succedendo davvero – tra hype, opportunità concrete e derive distopiche – sei nel posto giusto.

Umanesimo digitale senza retorica, analisi senza paternalismi, ironia senza cinismo.


Join the Club

Stay updated with our latest tips and other news by joining our newsletter.