API MCP WIKIPEDIA

… un aiuto per l’analisi sulle culture italiane e inglesi …

*Tre argomenti, due enciclopedie, una scoperta metodologica sul modo in cui le culture codificano il sapere*

—

Quando il parser ha restituito `sections: []` per l’articolo italiano sugli Anni di piombo, per un momento ho pensato a un bug. Non era un bug.

Era un dato.

C’è una differenza epistemica tra navigare Wikipedia e interrogarla come API. Navigando, avresti letto l’articolo IT sugli Anni di piombo e ti saresti fatto un’impressione — “meno strutturato, forse”. Interrogandola tramite MCP, ottieni un fatto misurabile: `sections: []`. Non è più un giudizio soggettivo sulla qualità, è una proprietà strutturale del documento. Il salto è lo stesso che separa “questo manoscritto sembra diverso dall’altro” da “questi due manoscritti hanno stemma divergente a partire dal terzo capitolo”. La forma smette di essere trasparente e diventa oggetto di analisi.

L’articolo esiste — il sommario lo conferma, una pagina pulita che introduce il periodo con una prosa decente. Ma non ha struttura formale per sezioni: niente Background, niente Timeline, niente estratto sugli esuli in Francia. Zero livelli gerarchici. La versione inglese, *Years of Lead (Italy)*, ha invece un’architettura completa: cronologia anno per anno dal 1969 all’88, sezione sulla dottrina Mitterrand per i latitanti, analisi del contesto sociologico dell’Autunno Caldo. Un articolo scritto per chi non sa niente e deve capire tutto.

Il paradosso non è piccolo. L’enciclopedia in italiano sulla storia italiana è meno navigabile di quella in inglese sulla stessa storia italiana.

La spiegazione non è qualità — è architettura editoriale.

—

Wikipedia italiana ragiona per distribuzione: ogni grande evento ha la sua voce, ogni personaggio la sua pagina, ogni strage il suo articolo dedicato. *Brigate Rosse*, *strage di piazza Fontana*, *strategia della tensione*, *caso Moro* — ciascuna voce è densa, spesso ottima, spesso più ricca della corrispettiva in inglese. L’articolo sugli Anni di piombo come periodo unitario non serve perché il lettore di riferimento sa già da dove partire. Sa che deve cercare *piazza Fontana*, non *Years of Lead*.

Wikipedia inglese ragiona per sintesi: costruisce l’articolo omnicomprensivo perché il suo lettore arriva dal nulla. Non sa da dove cominciare, non conosce le voci satellite, non ha il contesto. Allora l’enciclopedia gli costruisce il percorso.

Questo diventa molto più chiaro quando il soggetto è italiano al cento per cento. Su Pier Paolo Pasolini, la versione italiana vince senza appello — non per volume ma per profondità locale. Ha una sezione sul rapporto con la madre, che non esiste nell’altra. Ha la sezione Autore di canzoni: Domenico Modugno, Laura Betti, De André che gli dedica Una storia sbagliata, De Gregori che lo chiama A Pa’ nell’album del 1985. Tutto questo scompare dalla voce in inglese, che è invece più forte sul framing internazionale: Pasolini accanto a Ozon, Swanberg, Miike; la contestualizzazione nel cinema mondiale; la Trilogy of Life come punto di riferimento per chi non conosce il Decameron di Boccaccio come testo vivo.

Due versioni della stessa persona, due lettori impliciti diversi.

Sull’entanglement quantistico non c’è gara. La versione inglese ha formalismo completo con notazione bra-ket, sezioni sugli stati di Werner, entanglement multipartito, misure quantitative (negatività logaritmica, squashed entanglement), esperimenti recenti fino al 2023 con i quark top all’LHC, e il Nobel 2022 trattato come punto di arrivo di un percorso storico che parte da Einstein. La versione italiana è corretta, accessibile, e si ferma. Quattro fatti chiave estratti contro otto. La scienza, al momento, parla inglese — e non è colpa della comunità italiana, è una questione di massa critica editoriale.

—

La filologia medievale ha un concetto utile qui: lo stemma codicum, l’albero genealogico dei manoscritti che tramandano un testo. Due copisti diversi dello stesso originale non producono errori casuali — producono errori sistematici, coerenti con le loro abitudini, la loro formazione, il pubblico per cui stavano scrivendo. Il copista del monastero di Tours normalizzava le parole oscure; il copista di Canterbury tendeva a espandere i margini con glosse. Le varianti non sono disattenzioni: sono scelte editoriali incorporate nell’atto della copia.

Le due Wikipedia fanno la stessa cosa. Non sbagliano — scelgono. E le scelte riflettono comunità di lettori, tradizioni enciclopediche, modi diversi di pensare a cosa significa sapere qualcosa su un argomento.

Il punto epistemico più sottile è questo: la struttura è contenuto, non contenitore. L’assenza di una voce unitaria sugli Anni di piombo in IT non è una lacuna — è una presa di posizione implicita: questo evento non si capisce come unità, si capisce come rete di nodi già noti. La struttura editoriale è la traccia fossile delle ipotesi sul lettore. Il copista di Wikipedia IT, come quello medievale che scriveva per i monaci del suo monastero, scriveva per chi sapeva già.

—

Questo ha conseguenze pratiche per chiunque usi strumenti linguistici per accedere a contenuti culturali italiani — e vale in particolare per sistemi che usano Wikipedia come fonte di contesto, da RAG basilari fino a NPC con memoria enciclopedica.

Se il sistema cerca Anni di piombo su Wikipedia IT e si aspetta una struttura densa di sezioni da cui estrarre fatti, troverà un array vuoto e interpreterà il silenzio come assenza di contenuto. Il contenuto c’è, distribuito altrove, in decine di voci collegate che il sistema non sta interrogando. L’architettura distribuita di IT richiede una strategia di interrogazione distribuita — non basta l’articolo ombrello, servono le voci satellite.

Il problema non è che il modello “non sa abbastanza” — è che ha una cecità architetturale sistematica. Vede testo, non struttura editoriale. Non distingue tra “articolo assente” e “articolo che presuppone un lettore già orientato”. Per un LLM che usa Wikipedia come knowledge base, `sections: []` e “voce inesistente” producono lo stesso tipo di risposta: vuoto. Ma sono fenomeni radicalmente diversi — uno è silenzio per assenza, l’altro è silenzio da puntatore semantico: la voce non contiene, indica. La differenza non è recuperabile dalla lettura del testo — è visibile solo nella topologia. Il codice che si ferma a `sections: []` senza espandere la query verso i nodi collegati non sta sbagliando la logica: sta applicando una pigrizia gerarchica ragionevole in quasi tutti i contesti, e fatale in questo. Costruire un sistema RAG su cultura italiana senza tenere conto di questa asimmetria introduce un punto cieco sistematico, riproducibile, e invisibile finché non lo misuri.

Viceversa, se si usa EN per contenuti culturali italiani profondi — i legami di Pasolini con la canzone d’autore italiana, la topografia della sua Roma, i riferimenti al Friuli e alla lingua friulana come atto politico — si trova il biglietto da visita internazionale, non l’archivio. Preciso quanto basta, mai abbastanza.

La soluzione non è scegliere una versione. È capire che le due enciclopedie rispondono a domande diverse, e costruire di conseguenza le query.

C’è però un argomento che questa analisi non affronta. Il rapporto di Pasolini con la madre, il friulano scelto come lingua per atto politico e non per nascita, le glosse di De André e De Gregori che lo inscrivono in una tradizione sonora italiana — tutto questo emerge dalla lettura lineare, non dall’interrogazione strutturale. `get_sections` restituisce la topologia, non il peso specifico. Un sistema che interroga per struttura guadagna misurabilità ma perde immersione. Non è detto che il saldo sia positivo — dipende da cosa stai costruendo.

Prima di MCP, questa analisi richiedeva un ricercatore che conoscesse entrambe le tradizioni, aprisse decine di schede, confrontasse strutture a occhio. Il risultato sarebbe stato narrativo — “mi sembra che”. Adesso è misurabile, riproducibile, estendibile a cento argomenti in un pomeriggio. Non è solo comodità: è un tipo di domanda diverso che diventa possibile fare. L’archeologia del sapere enciclopedico, prima riservata agli studiosi di Wikipedia come fenomeno sociale, è diventata uno strumento operativo.

Quando il parser restituisce `sections: []`, non sta dicendo che l’articolo è vuoto. Sta dicendo che il lettore implicito di quella versione non aveva bisogno di struttura — sapeva già dove guardare.

Il fatto che adesso possiamo leggere anche questo, è nuovo.

—

**Riferimenti**

[1] Wikipedia EN, Years of Lead (Italy) — voce con sezioni strutturate, timeline 1969-1988, sezione sulla dottrina Mitterrand.

URL: https://en.wikipedia.org/wiki/Years_of_Lead_(Italy)

[2] Wikipedia IT, Anni di piombo (Italia) — voce senza sezioni formali, sommario introduttivo.

URL: https://it.wikipedia.org/wiki/Anni_di_piombo

[3] Wikipedia EN, *Pier Paolo Pasolini* — sezioni: Biography, Career, Personal life, Political views, Murder, Legacy.

URL: https://en.wikipedia.org/wiki/Pier_Paolo_Pasolini

[4] Wikipedia IT, Pier Paolo Pasolini — sezioni aggiuntive: Rapporto con la madre, Autore di canzoni, Sostenitori del complotto / Sostenitori della sentenza.

URL: https://it.wikipedia.org/wiki/Pier_Paolo_Pasolini

[5] Wikipedia EN, *Quantum entanglement* — formalismo completo, Nobel 2022, esperimenti 2023.

URL: https://en.wikipedia.org/wiki/Quantum_entanglement

[6] Eco, U., *Lector in Fabula*, Bompiani, 1979 — per la definizione di lettore implicito come struttura del testo, non come entità empirica. Il testo costruisce il lettore di cui ha bisogno.

[7] Wikipedia MCP server — tool `get_sections`, `extract_key_facts`, `get_summary` usati per l’analisi strutturale comparativa in questo articolo.

URL: https://github.com/modelcontextprotocol/servers

Leave a comment Cancel reply

Join the Club

Categorie

Tag