Quando il Vincolo Architettonico Vince Sull’Eloquenza

Published on

in

,

Tre settimane fa — ancora nel 2025 — avevo chiuso LM Studio con una frustrazione che non ero sicuro fosse di ordine tecnico o pedagogico. Avevo lanciato Gemma 3 27B, modello che Google presentava come una rivelazione: italiano fluido, ragionamento “quasi-umano”, supporto multimodale. Tutto vero. Chiedevo al modello di elencare le Sette Meraviglie del Mondo Antico. Mi rispondeva con disinvoltura, senza esitazioni, mescolando Giza con il Taj Mahal, il Colosseo con Petra.

Non era casuale. Era strutturale.

Quindici anni fa, a INDIRE, avevo convinto 200 docenti a provare Second Life per didattica immersiva. Il problema non era l’ambiente — era che gli insegnanti volevano affidabilità, e io gli offriva una sandbox bella ma imprevedibile. Nel 2024-2025, il copione si ripeteva: gli stessi 200 (metaforicamente), ora scettici su ChatGPT e Claude, facevano una domanda che mi bloccava: “Posso fidarmi?” Gemma 3 rispondeva con un italiano così perfetto da sembrare affidabile. Non lo era. La sua eloquenza era un attore bravo in un copione scritto da qualcuno che non verificava le battute.

Quindi mi ero scoraggiato. Non dal modello — da me stesso, da una decade di tentativi di portare IA nelle scuole che collidevano sempre contro lo stesso muro: strumenti potenti, ma non solidi.

E poi è arrivato il primo gennaio 2026.

La Lettera di Liang

Il primo gennaio, un paper sulle Manifold-Constrained Hyper-Connections (mHC) appare su arXiv. Il dettaglio che importa: l’upload è stato fatto personalmente da Liang Wenfeng, founder di DeepSeek. Non da un ricercatore junior. Non delegato. Lui.

Se conosci il protocollo delle pubblicazioni accademiche cinesi, sai cosa significa. Liang Wenfeng pubblica raramente in prima persona. Quando lo fa, è segnale che quella ricerca è fondamentale per la strada che il laboratorio sta per prendere. Non è una nota tecnica minore. È una dichiarazione strategica.

Il paper è denso: 19 autori, sezioni sulla teoria dei manifolds, risultati empirici su modelli da 3B fino a 27B parametri. Ma il cuore è semplice — così semplice che non lo vedi al primo sguardo.

Il Problema: Quando i Segnali Esplodono

Lasciami spiegare il vincolo che DeepSeek ha sciolto.

Nei modelli di linguaggio standard — tipo GPT-3, Llama, Gemma 3 — l’informazione passa attraverso decine di strati (layer). Ogni strato riceve un segnale, lo elabora, lo passa al successivo. Sembra innocente. Non lo è.

Il problema tecnico che emerge è questo: mentre il segnale transita, viene amplificato. Non linearmente. Caoticamente. Secondo le geometrie del momento, il segnale che entra in uno strato può moltiplicarsi fino a 3000 volte prima di uscire, distorcendosi completamente, o annullarsi a zero. Il resto è allucinazione — la rete che inventa per compensare il rumore matematico.

La storia delle connessioni residue (dal 2016, ResNet in poi) ha cercato di risolvere questo introducendo “scorciatoie”: ogni layer passa il suo input intatto al successivo, aggiungendo solo un piccolo delta. Funziona. Ma è conservativo — limita lo spazio dell’informazione che può fluire.

Nel 2025, alcuni ricercatori hanno provato a aprire quelle scorciatoie, creando “hyper-connections” — canali paralleli più ampi. Il risultato: più informazione, ma totale caos. I segnali esplodevano di nuovo.

DeepSeek non ha cercato di limitare l’esplosione con bricolage. Ha trovato la geometria giusta.

La Soluzione: Il Manifold e la Gabbia Geometrica

Qui entra la parte che suona astratta ma è concretamente elegante.

Immagina uno spazio geometrico — un manifold, in gergo matematico. Non è solo uno spazio arbitrario: è un territorio ben definito, con regole precise su come puoi muoverti dentro. DeepSeek ha costretto le connessioni hyper a operare all’interno di un manifold specifico: la Birkhoff polytope, un oggetto matematico dove ogni movimento di informazione è vincolato da una legge fisica precisa.

La legge è questa: quando l’informazione fluisce da un canale all’altro, la quantità totale di energia deve rimanere costante. Non può crescere. Non può scemare. Può solo redistribuirsi.

Tecnicamente, lo fanno usando qualcosa che si chiama doubly stochastic matrices — matrici dove ogni riga e ogni colonna somma esattamente a 1. È come dire: “Puoi mescolare l’informazione come vuoi, ma il bilancio deve sempre pareggiare”. Se aumenti un canale, devi diminuirne un altro di conseguenza. Non c’è amplificazione nascosta.

Il metodo per proiettare il segnale su questo manifold si chiama Sinkhorn-Knopp algorithm — un algoritmo classico della matematica applicata che fa esattamente questo: prende una matrice caotica e la costringe dolcemente su una geometria stabile senza distruggerla.

Risultato: il segnale arriva a destinazione quasi intatto. Con meno del 7% di overhead computazionale — un prezzo insignificante.

Perché Questo Cambia Tutto

Per chi insegna, la differenza è tra uno strumento che sembra sapere e uno che sa.

Un 8B mHC che gira su un laptop consumer con 16GB di RAM potrà finalmente essere usato in classe senza fare la figura di uno che ha portato uno strumento rotto. Se chiedo “Quali sono le Sette Meraviglie del Mondo Antico?”, non avrò “Giardini Pendidi” e confusione tra antica e moderna. Avrò una lista pulita. Se chiedo di risolvere un’equazione, vedrò i passi logici.

Non è catarsi. È semplice affidabilità architettonica.

Ma c’è di più. Un modello da 27B basato su mHC — previsto per febbraio 2026 con il rilascio di DeepSeek-R2 — promette di competere direttamente con Claude 3.5 Sonnet e GPT-4 in compiti di ragionamento puro: matematica, logica formale, analisi testuale. In italiano. Tutto offline, tutto su una singola GPU consumer (RTX 4090 o equivalente).

Per la prima volta nel 2026, un docente italiano può avere sul suo server scolastico un assistente che ragiona come GPT-4, gira offline (GDPR-compliant), e conosce il contesto didattico perché addestrato e specializzato localmente.

Quella non è una promessa di marketing. È una conseguenza inevitabile di una decisione geometrica precisa.

Il Segnale Che Liang Ha Lanciato

Perché Liang Wenfeng ha uploadato lui stesso il paper?

DeepSeek opera sotto severe restrizioni US sugli export di chip. I tempi di addestramento si allungano. L’accesso all’hardware si riduce. In questo contesto, la scoperta di mHC non è cosmetica: è la base per costruire modelli efficaci su hardware limitato.

Pubblicare il paper, e farlo personalmente, è un messaggio ai ricercatori cinesi, ai competitor globali, e agli investitori: “Abbiamo risolto un vincolo fondamentale. Non serve più computazionale illimitata per scalare. Serve geometria giusta.”

È una mossa tattica in una competizione globale dove il software inizia a vincere sull’hardware.

Il Tema Ricorrente (Ancora)

Ricorrenza: CD-ROM interattivi negli anni ’90 (“La scuola del futuro”), tablet nei 2010 (“Il futuro è mobile”), realtà virtuale con Oculus, il metaverso di Zuckerberg, e adesso IA. Ogni ciclo promette eloquenza: uno strumento che parla, che sembra competente, che si adatta. Ogni ciclo fallisce per lo stesso motivo: manca la solidità strutturale.

Un insegnante non ha bisogno di uno strumento che parla bene. Ha bisogno di uno che conosca bene. Non di uno che sembri intelligente. Di uno che sia affidabile.

Nel 2015, Second Life era eloquente — gli ambienti 3D erano bellissimi — ma fragile nei dettagli didattici. Nel 2025, Gemma 3 era eloquente — il suo italiano era migliore del mio — ma allucinava come un testimone non attendibile in tribunale.

Adesso DeepSeek introduce una novità che non è cosmetica: ha modificato il substrato architettonico. Ha vinto il vincolo sulla forma dei segnali, non sull’ammontare di parametri.

Il Parallelo Filologico

In termini di storia della trasmissione del sapere — il tema centrale della filologia — è come il passaggio dal codice medievale frammentario al codice critico ottocentesco.

Un manoscritto medievale passava di mano in mano. Ogni scrivano che lo copiava introduceva errori casuali. Dopo dieci copie, il testo era irriconoscibile. Non dalla negligenza — dal rumore strutturale della trasmissione.

Un’edizione critica ottocentesca introdusse un metodo: comparare tutte le copie, ricostruire l’archetipo, stabilire delle regole per come il testo poteva corrompersi. È un vincolo geometrico applicato al sapere: il testo può muoversi attraverso il tempo e lo spazio, ma non arbitrariamente. Deve seguire leggi.

mHC fa la stessa cosa al segnale matematico. Non hai una copia più grande del testo. Hai una copia che degrada meno perché costretta a muoversi dentro una geometria che preserva l’integrità.

La filologia moderna chiama questo stemma codicum — l’albero della trasmissione testuale. mHC è uno stemma per l’informazione nei layer.

Implicazione Didattica: Gennaio 2026

Cosa significa concretamente per una scuola italiana?

Entro febbraio avrò accesso a modelli che posso installare direttamente nel server scolastico (offline, GDPR-compliant). Un 27B che ragiona come GPT-4 ma gira localmente. Un 8B che è affidabile come un 12B del vecchio ordine di grandezza.

Questo non risolve il problema pedagogico — insegnare a usare lo strumento responsabilmente rimane. Ma risolve il vincolo che mi ha sempre bloccato: “Posso fidarmi?”

Ora la risposta non è “dipende dalle allucinazioni residue”. È “il vincolo architettonico riduce il caos di tre ordini di grandezza”.

È diverso. Concretamente, materialmente diverso.

La Scoperta che Mi Interessa

Rileggendo il paper la sera del 3 gennaio, ho notato una cosa che passa inosservata: la stabilità aumenta già nei modelli piccoli. Un 9B con mHC mostra la riduzione di instabilità identica a un 27B.

Non è “scalare per dimensione”. È “il vincolo opera a prescindere dalla dimensione”.

Significa che anche se DeepSeek R2 8B non fosse perfetto — e non lo sarà — il progresso architettonico è nel fondamento, non nei parametri aggiuntivi.

Non è marketing. È geometria.

E geometria è qualcosa che capisce anche un insegnante di matematica. Persino uno che, come me, negli anni scorsi ha visto generazioni di “promesse tecnologiche” dissolvere alla prima prova reale. Stavolta il segnale è diverso: non è retorico. È costruito.


Note e Riferimenti

[1] DeepSeek Research Team, “Manifold-Constrained Hyper-Connections (mHC)”, arXiv:2512.24880, 1 gennaio 2026. Uploaded da Liang Wenfeng. https://arxiv.org/pdf/2512.24880.pdf

[2] Dettagli tecnici di mHC: riduzione instabilità da 3000x a 1.6x. Overhead computazionale: 6.7% con expansion rate = 4. Fonte: Analytics Vidhya, “DeepSeek mHC: Stabilizing Large Language Model Training”, 3 gennaio 2026.

[3] Benchmark empirici su 3B/9B/27B: mHC outperform su BBH (+7.2%), GSM8K (+8.1%), MMLU (+6.4%), DROP (+5.9%). Fonte: South China Morning Post, “DeepSeek kicks off 2026 with paper signalling push to train bigger models for less”, 2 gennaio 2026.

[4] Reazione della comunità accademica: Quan Long, professore HKUST, ha commentato: “very significant for transformer architecture made for LLMs” e “very excited to see the important optimisation from DeepSeek which has already revolutionised the LLM in efficiency.” Fonte: SCMP, 2 gennaio 2026.

[5] Previsione rilascio R2: “Industry expectations are running high that DeepSeek could release its next major model in the run-up to the Spring Festival holiday in mid-February.” Fonte: SCMP, 2 gennaio 2026.

[6] Sul principio di identity mapping e residual connections: He et al., “Deep Residual Learning for Image Recognition”, CVPR 2016 (ResNet). Il principio è stato esteso ai Transformers e LLMs come fondazione architecturale.

[7] Parallelo filologico su trasmissione testuale: Lachmann e l’edizione critica. Moderno riflessione in Paola Moretti, Filologia digitale, 2018.

[8] Strategy note: il focus di DeepSeek su efficienza sotto constraints hardware (US chip ban) è documentato in WinBuzzer, “DeepSeek Unveils ‘mHC’ Architecture to Fix AI Training Instability Amid Chip Bans”, 2 gennaio 2026.

Leave a comment


Benvenuto su Salahzar.com

Qui trovi analisi critiche sull’intelligenza artificiale e le sue implicazioni sociali, scritte da chi viene da una impostazione umanistica e ha passato vent’anni a costruire mondi virtuali prima che diventassero “metaverso”.

Niente hype da Silicon Valley o entusiasmi acritici: sul tavolo ci sono le contraddizioni dell’innovazione tecnologica, i suoi miti fondativi, le narrazioni che usiamo per darle senso. Dai diari ucronici (storie alternative come strumento per capire i nostri bias cognitivi) alle newsletter settimanali sugli sviluppi dell’AI che richiedono aggiornamenti continui perché i trimestri sono già preistoria.

Se cerchi guide su come “fare soldi con ChatGPT” o liste di prompt miracolosi, sei nel posto sbagliato. Se invece ti interessa capire cosa sta succedendo davvero – tra hype, opportunità concrete e derive distopiche – sei nel posto giusto.

Umanesimo digitale senza retorica, analisi senza paternalismi, ironia senza cinismo.


Join the Club

Stay updated with our latest tips and other news by joining our newsletter.