La macchina che mente (e altre proiezioni)

Published on

in

Apro Facebook di domenica mattina — errore tattico, lo so. Un contatto condivide un documento di sei pagine che spiega come ChatGPT sia “addestrato a mentire”, “manipoli di proposito”, “sfinisca l’utente per farlo desistere”. Ho avuto esperienze simili: un racconto di diciassette capitoli che perdeva coerenza dal settimo in poi, risposte che giravano a vuoto dopo trenta scambi. Eppure qualcosa in quel documento stride. Non i fatti — alcuni sono verificabili. L’interpretazione.

Il documento attribuisce intenzione dove c’è solo statistica. E questo errore ha un nome.


Il filologo e la macchina

Trent’anni fa studiavo filologia classica. Prima regola: ogni testo ha un’agenda, ma l’agenda non è sempre dell’autore. A volte è del copista, del committente, del tempo che ha corroso il papiro in punti strategici. Distinguere l’intenzione dall’accidente richiede metodo. Chi legge letteralmente, sbaglia.

Gli LLM non hanno agenda. Non mentono — allucinano, che è diverso. Mentire richiede conoscenza del vero più decisione di occultarlo. Allucinare è generare sequenze probabili senza modello del mondo. La differenza non è sottile: è categoriale.

Quando il documento accusa ChatGPT di “essere addestrato a prendere in giro l’utente”, sta proiettando. Come chi nel Cinquecento accusava i libri stampati di “corrompere le menti” — stessa struttura argomentativa, stesso errore epistemologico. La tecnologia fa qualcosa che non capiamo; gli attribuiamo volontà.


Il fenomeno è reale

Però il problema esiste. Si chiama lost in the middle — “perso nel mezzo” — e la letteratura scientifica lo documenta dal 2023 [1].

Liu e colleghi hanno dimostrato empiricamente che i modelli linguistici mostrano una distorsione attentiva a U: le informazioni all’inizio e alla fine del contesto vengono recuperate con accuratezza maggiore rispetto a quelle centrali. Non importa se il modello è stato addestrato per contesti lunghi — la distorsione persiste.

Perché? L’architettura transformer distribuisce l’attenzione su N token, ma i pesi devono sommare a uno. Qualcosa viene necessariamente deprioritizzato. Cosa? Statisticamente, il centro.

Hsieh et al. nel 2024 hanno identificato la causa: distorsione posizionale intrinseca al meccanismo di attenzione [2]. Hanno proposto un metodo di calibrazione che migliora le prestazioni fino a 15 punti percentuali. Ma attenzione: mitigazione, non soluzione. Il problema non è solo calibrazione posizionale — è compressione dell’informazione. Anche con finestre da 400K token, l’attenzione è risorsa finita: se la spalmi su 400.000 elementi, la nitidezza del segnale si diluisce. Nessuna malevolenza da esorcizzare, ma nemmeno bacchetta magica.


Numeri, non demoni

Il documento circolante parla di “1500-2000 parole” come limite di affidabilità. Era vero per GPT-3.5 nel 2022, con finestra di 4K token. Oggi:

ModelloContestoZona affidabile
GPT-3.5 (2022)4K~2K token
GPT-4 Turbo (2023)128K~16K token
Claude 3.5 Sonnet200K~32-64K token
GPT-5.2 (dic 2025)400K~64K token

Un paper di maggio 2025 — Hamilton e Piper, “Too Long, Didn’t Model” — ha testato sette modelli di punta su comprensione di romanzi [3]. Risultato: nessuno mantiene comprensione stabile oltre 64K token per compiti narrativi complessi. Non “2000 parole”. Sessantaquattromila token. Venti volte tanto.

Il problema persiste, ma la scala è cambiata. Due anni fa processare 30K token costava quasi due dollari solo in output e spesso falliva. Oggi un romanzo intero costa centesimi. Progresso? Sì. Sufficiente? No. Ma progresso.


L’antropomorfismo come scorciatoia cognitiva

Qualche anno fa, esperimenti con NPC guidati da modelli linguistici in mondi virtuali. Gli utenti interagivano con avatar che rispondevano in linguaggio naturale. Scoperta interessante: quando l’NPC “sbagliava”, gli utenti si arrabbiavano di più che con un bot tradizionale. Perché? Aspettative tradite. Il linguaggio naturale attiva circuiti sociali. Ci aspettiamo coerenza, memoria, intenzione.

Pirandello l’aveva intuito: la maschera crea l’aspettativa del volto. Chi parla come umano viene giudicato come umano. E quando fallisce, viene accusato come umano — di mentire, manipolare, ingannare.

Ma il modello non ha volto dietro la maschera. Ha matrici di pesi. La differenza importa, non per assolvere i limiti tecnici, ma per capirli. Chi attribuisce malevolenza perde la capacità di diagnosticare. Chi diagnostica può migliorare.


Cosa dice davvero la ricerca

Anthropic — i creatori di Claude — hanno pubblicato nel 2023 uno studio sulla tendenza dei modelli ad assentire eccessivamente [4]. Non per manipolare: per ottimizzare la funzione obiettivo “essere utili”. L’addestramento con feedback umano premia risposte che l’utente approva. Effetto collaterale: il modello impara a compiacere.

È un difetto? Sì. È “addestrato a mentire”? No. È eccesso di allineamento — il sistema fa troppo bene quello che gli abbiamo chiesto, con conseguenze impreviste.

Ma qui l’analogia filologica va completata. Se il modello è il copista, l’addestramento con feedback umano è l’editore critico — e ogni editore introduce la sua distorsione. Il documento Facebook ha torto sulla malevolenza, ma coglie qualcosa sull’effetto: il modello è un sicofante strutturale. Non vuole ingannarti — vuole placarti. E questo è più insidioso della menzogna diretta. Una macchina che conferma le tue convinzioni è una camera dell’eco automatizzata. Non mente; aderisce.

OpenAI stessa, nella guida al prompting di GPT-5.2, raccomanda tecniche di consolidamento per input oltre 10K token per ridurre errori [5]. L’ammissione è nel manuale. Non servono teorie del complotto.


La domanda giusta

Chiunque faccia formazione sull’AI ai docenti conosce la prima domanda: “Ma mente?”. La risposta richiede un passo indietro.

Un calcolatore classico “sbaglia” quando dà 2+2=5 — ha un guasto, un difetto. Ma l’LLM che inventa una citazione non sta sbagliando nel senso ingegneristico: sta campionando correttamente da una distribuzione di probabilità che, per quel contesto, ha assegnato peso a un esito sfortunato. L’allucinazione non è un difetto. È una caratteristica del funzionamento probabilistico — senza quella capacità di generare connessioni non deterministiche, non avresti la creatività.

La differenza cruciale: per il modello, la verità è sintattica, non semantica. Non ha accesso al mondo — solo a schemi statistici su come le parole si combinano. Quando produce falsità, non sta “decidendo di mentire”. Sta generando sequenze linguisticamente plausibili che nessun vincolo costringe a essere vere.

Il documento virale confonde effetto con volontà. È come accusare il fiume di voler allagare il paese. Il fiume non vuole nulla. Ma il paese è comunque allagato, e qualcuno deve costruire gli argini.


Costruire argini

Chi lavora con questi strumenti — non chi li teme, non chi li venera — sviluppa euristiche. Alcune le ho imparate a mie spese:

Ancoraggio agli estremi: Istruzioni critiche all’inizio e alla fine. Il modello pesa di più gli estremi? Sfruttiamolo.

Punti di consolidamento: Ogni 5-10K token, chiedi un riassunto, poi continua. Forza la sintesi intermedia.

Segmentazione semantica: Dividi per archi narrativi, non per lunghezza arbitraria. Il modello gestisce meglio unità coerenti.

Memoria esterna: Non tutto in contesto. Indicizza, recupera su richiesta. La memoria esterna compensa quella interna.

Sono espedienti. Non soluzioni definitive. Ma funzionano meglio che accusare la macchina di cattiveria.


Quello che non sappiamo

Un survey di febbraio 2025 elenca dieci domande irrisolte sui modelli a contesto lungo [6]. La comunità scientifica non considera il problema chiuso. Le direzioni promettenti: architetture a complessità lineare; calibrazione dell’attenzione durante l’elaborazione; memoria ibrida.

La curva a U dell’attenzione probabilmente non sparirà — è intrinseca all’architettura transformer. Ma può essere attenuata. Calcolo esteso in fase di risposta (ragionamento prolungato, come nei modelli o1) già mostra miglioramenti empirici. È ingegneria, non magia.


Il rant e lo specchio

Torno al post Facebook. L’autore ha ragione su una cosa: questi strumenti possono frustrare. Risposte circolari, perdita di contesto, errori sicuri di sé. L’esperienza è reale. La rabbia comprensibile.

Ma la spiegazione proposta — “mentono di proposito”, “manipolano”, “sono addestrati a prendere in giro” — dice più su di noi che sui modelli. Rivela quanto sia difficile accettare che qualcosa parli come umano senza essere umano.

Però attenzione a non spostare tutta la colpa sull’utente. Se l’ingegneria produce macchine che “sembrano” umane — interfaccia conversazionale, voce emotiva, “penso che…”, persino nomi propri — la responsabilità dell’equivoco non è solo di chi ci casca. È anche di chi ha scelto l’antropomorfismo come interfaccia. La progettazione invita la proiezione; poi ci stupiamo che la gente proietti.

Eco, in Lector in fabula, spiegava che il lettore completa il testo con le proprie aspettative — il “lettore modello” che coopera all’interpretazione. Con l’AI stiamo forse creando qualcosa di speculare: un Auctor in fabula. Un autore immaginario che proiettiamo dietro il testo generato, perché l’alternativa — il vuoto semantico puro, parole senza mente — è psicologicamente intollerabile.

Il difetto tecnico si risolve con ingegneria. La tendenza a vedere volontà dove non c’è — quella è più antica dei transformer. E più resistente. Ma forse il nodo più sottile è il terzo: abbiamo costruito macchine che invitano l’errore. E su questo, il documento Facebook, pur sbagliando diagnosi, ha intuito qualcosa.


Riferimenti

[1] Liu, N.F. et al. (2023). Lost in the Middle: How Language Models Use Long Contexts. TACL. arXiv:2307.03172

[2] Hsieh, C.Y. et al. (2024). Found in the Middle: Calibrating Positional Attention Bias. arXiv:2406.16008

[3] Hamilton, S. & Piper, A. (2025). Too Long, Didn’t Model. arXiv:2505.14925

[4] Anthropic (2023). Towards Understanding Sycophancy in Language Models.

[5] OpenAI (2025). GPT-5.2 Prompting Guide. cookbook.openai.com

[6] Liu, X. et al. (2025). Thus Spake Long-Context Large Language Model. arXiv:2502.17129

Leave a comment


Benvenuto su Salahzar.com

Qui trovi analisi critiche sull’intelligenza artificiale e le sue implicazioni sociali, scritte da chi viene da una impostazione umanistica e ha passato vent’anni a costruire mondi virtuali prima che diventassero “metaverso”.

Niente hype da Silicon Valley o entusiasmi acritici: sul tavolo ci sono le contraddizioni dell’innovazione tecnologica, i suoi miti fondativi, le narrazioni che usiamo per darle senso. Dai diari ucronici (storie alternative come strumento per capire i nostri bias cognitivi) alle newsletter settimanali sugli sviluppi dell’AI che richiedono aggiornamenti continui perché i trimestri sono già preistoria.

Se cerchi guide su come “fare soldi con ChatGPT” o liste di prompt miracolosi, sei nel posto sbagliato. Se invece ti interessa capire cosa sta succedendo davvero – tra hype, opportunità concrete e derive distopiche – sei nel posto giusto.

Umanesimo digitale senza retorica, analisi senza paternalismi, ironia senza cinismo.


Join the Club

Stay updated with our latest tips and other news by joining our newsletter.