Salahzar's Weblog

A collection of my posts in the web

Petrarca come benchmark

… quando un sonetto vale più di MMLU

Chiedo a un modello da 27 miliardi di parametri di fare una poesia in rima baciata in -ero. Tema: la primavera. Roba da compito in classe, terza media, 1987.

Il modello ci prova. Produce “chiarore/fervore” (accettabile), poi “mistero/pensiero” (va bene), poi deraglia: “sereno/terreno”. Non rima in -ero. Rima in -eno. Un liceale verrebbe ripreso. Il modello va avanti come se niente fosse.

Due anni fa nessuno ci riusciva. GPT-4o, Claude 3, Gemini 1.5: tutti producevano versi che sembravano poesia italiana ma non lo erano. Rime approssimative, accenti sbagliati, endecasillabi che endecasillabi non erano. Oggi i modelli di punta — quelli sopra i 70 miliardi di parametri — cominciano a farcela. Quelli medi inciampano. Quelli piccoli fingono.

La domanda è: perché una cosa così banale è così difficile per una macchina?


La risposta sta in una parola che i filologi conoscono bene e gli informatici tendono a sottovalutare: vincolo.

Una rima baciata in italiano non è un singolo problema. Sono quattro problemi simultanei. Il modello deve mappare lettere su suoni — e l’italiano ha le sue trappole: “chiesa” e “chiesto” condividono lettere ma non fonetica. Deve scegliere parole al verso N che non chiudano le opzioni al verso N+1. Deve fare in modo che i versi abbiano senso insieme, non solo individualmente. E deve tenere lo schema AA-BB-CC per tutta la durata della poesia, senza perdersi.

I test standard — MMLU, HumanEval, HellaSwag — verificano cose diverse: recupero di nozioni, ragionamento logico, completamento di frasi. Nessuno testa questa sincronizzazione di vincoli eterogenei. È più simile a comporre una fuga a quattro voci rispettando il contrappunto che a rispondere a un quiz.

E qui entra la filologia.


“Càpito”, “capìto”, “capitò”. Stesso gambo lessicale, tre parole diverse. L’accento mobile dell’italiano è un incubo computazionale che l’inglese non ha. In inglese “love/move” passa come rima imperfetta e nessuno protesta. In italiano “amore/colore” è accettabile, ma “amore/dolore” è ovvio — sa di compito copiato, di rimario sfogliato di fretta. Il modello deve imparare una gerarchia estetica che nessun manuale esplicita: quali rime sono lecite, quali banali, quali eleganti. Non è fonetica. È convenzione sociale stratificata in secoli di pratica poetica.

I filologi lo sanno da sempre. Ogni testo ha un’agenda, ogni scelta lessicale è posizionamento, ogni rima “spontanea” è in realtà il prodotto di una negoziazione tra suono, significato e tradizione. Petrarca non rimava “amore/dolore” per caso: lo faceva perché quella coppia era già convenzionale nel Duecento, e lui la usava per poi sovvertirla. Un modello che produce “amore/dolore” nel 2025 non sta facendo Petrarca. Sta facendo il compagno di banco che copia senza capire.

Sette vocali fonologiche contro cinque dell’inglese. Accenti che cambiano significato senza cambiare ortografia. Rime che tecnicamente funzionano ma socialmente no. L’italiano è un test di frontiera non perché sia la lingua più difficile del mondo, ma perché le sue regole sono in parte esplicite (la fonetica) e in parte implicite (l’estetica). E le regole implicite sono quelle su cui le macchine si schiantano.


Villaggio nel 1975 filma Fantozzi che timbra il cartellino: gesto meccanico, ripetuto, svuotato di senso. Il modello che produce “sentiero/leggero/intero/vero” per otto versi di fila fa la stessa cosa. Timbra la rima. La forma è rispettata, il contenuto è assente. È automazione poetica: corretta nei parametri, morta nel risultato.

Il problema è strutturale. I modelli sono addestrati a minimizzare la perdita — a trovare la risposta statisticamente più sicura. “Amore/dolore” è il punto di equilibrio più basso: rima perfetta, occorrenza altissima nel corpus, rischio zero. Ma scrivere poesia non è minimizzare il rischio. È il contrario: saper scartare il 99% delle parole che tecnicamente rimano ma che esteticamente puzzano. Un modello da 27 miliardi non ha abbastanza pressione interna per rinunciare alla soluzione ovvia in favore di quella giusta. Non ha un’etica dello scarto. Ha una probabilità di occorrenza.

Ma c’è un’altra scena che funziona meglio. Troisi in Ricomincio da tre, quando prova a spiegare qualcosa di complicato e le parole non vengono. Si ferma, ricomincia, cambia strada. Ecco: un modello da 27 miliardi di parametri che tenta la rima baciata fa esattamente quello. Solo che Troisi sapeva di non riuscirci — e il modello no.


Il punto serio è un altro: la rima baciata italiana funziona come marcatore di progresso architetturale, non solo dimensionale.

Nel 2019 la traduzione dall’inglese al tedesco con espressioni idiomatiche era impossibile. Nel 2021 la generazione di codice coerente su più file. Nel 2023 il ragionamento matematico oltre otto passaggi. Nel 2025: rima baciata italiana. Tutti richiedevano miglioramenti qualitativi — meccanismi di attenzione, affinamento sulle istruzioni, apprendimento da feedback umano — non solo più parametri. La rima baciata sta mostrando lo stesso schema.

Ho testato Gemma-3 a 27 miliardi su una dozzina di tentativi. Tiene la rima per quattro versi, poi scivola. Ripete parole per inerzia (“sincero”, “vero”, “sentiero” — il lessico della pigrizia). Produce versi metricamente irregolari spacciandoli per endecasillabi. A 70 miliardi — stando ai risultati di modelli equivalenti — la tenuta migliora. A 200+ miliardi, i modelli di punta oggi producono rime baciate accettabili, a volte buone. Non è dato statistico: è osservazione diretta su una ventina di test. Ma racconta qualcosa.

Racconta che sotto una certa soglia di complessità il modello non ha abbastanza “memoria stilistica” per mantenere vincoli multipli su più versi. Non è che non conosce le parole. È che non riesce a tenere insieme suono, senso e schema contemporaneamente. Come un giocoliere che sa lanciare tre palline ma ne perde una quando gliene dai cinque.


Ma il test ha limiti, e chi lo usa come cartina di tornasole definitiva sbaglia.

Un modello può passare per motivi sbagliati. Se ha visto diecimila poesie che rimano in -ero, può ricomporre senza vera comprensione fonologica — è rimario statistico, non orecchio. Con campionamento strategico può tentare finché non trova combinazioni plausibili. E se gli specifichi nel prompt “rima in -ero, tema primavera”, gli stai già facendo metà del lavoro.

Il test rigoroso è un altro: tema astratto, vincolo fonologico raro. “Poesia sulla procrastinazione, tutta in rima -ume.” Se fallisce, non ha capacità generale. Ha corrispondenza di schemi.

Può anche fallire avendo le capacità. La tokenizzazione — il modo in cui il modello spezza le parole in pezzi — è sorda alla fonetica. Il modello non “sente” i suoni: vede segmenti numerici, cluster visivi. Quando rima “sereno” con “terreno” invece di “pensiero”, non sta sbagliando la logica. Sta accordando un violino guardando le corde vibrare, senza sentirle. La temperatura di generazione sbagliata produce caos o ripetizioni. Istruzioni vaghe portano a prosa lirica invece che a metrica. Prima di dichiarare un modello incapace, bisogna dargli istruzioni precise: “Otto versi, schema AA-BB-CC-DD, ogni verso termina in -ale, tema: tecnologia.” Se passa così e fallisce in forma libera, il problema è nell’esecuzione delle istruzioni, non nella capacità fonologica.


Il vero orizzonte non è la rima baciata. È il sonetto.

Quattordici versi. Schema ABBA-ABBA-CDC-DCD. Endecasillabi. Volta semantica al nono verso. Chiusa al quattordicesimo. GPT-5.2 ci prova e a volte sembra riuscirci, ma la volta al nono verso la manca più spesso che no. Claude Opus a volte sorprende, a volte no. Nessun modello oggi lo passa sistematicamente.

Oltre il sonetto c’è la sestina: sei strofe di sei versi più congedo, con rotazione lessicale prescritta. Le parole finali dei versi ruotano secondo uno schema fisso per trentanove versi. È mostruosa, e non solo per le dimensioni. Il punto è che non puoi scrivere il primo verso senza aver già risolto il trentanovesimo. La parola che chiude la strofa uno deve sopravvivere, in posizioni predefinite, fino alla fine della strofa sei. È un sistema di equazioni lessicali che va risolto a ritroso prima di scrivere una sola riga. Qui non serve un rimario. Serve un architetto. Nessun meccanismo di attenzione attuale “vede” così lontano senza perdere coerenza semantica lungo la strada.

Una scala di difficoltà sensata: rima baciata semplice (oggi l’80% dei modelli grandi la passa), rima alternata con vincoli semantici (il 40% circa), sonetto classico (il 10% e con risultati fragili), sestina (sotto il 5%, anche per i migliori). Non sono percentuali da studio pubblicato. Sono stime basate su prove dirette, e vanno prese per quello che sono.


I benchmark invecchiano come il latte, non come il vino. MMLU sembrava insuperabile nel 2020, oggi lo passano modelli che girano su un portatile. HumanEval discriminava nel 2022, oggi no. La rima baciata italiana discrimina nel 2025. Tra due o tre anni sarà obsoleta. È il destino di ogni test che misura una frontiera: appena la frontiera si sposta, il test diventa esercizio scolastico.

E il modo in cui verrà assorbita è prevedibile: affinamento mirato sulla metrica italiana, addestramento su corpora poetici selezionati, istruzioni formali più precise. Presto avremo modelli che non sbagliano un endecasillabo. Ma l’output sarà una media pesata del Canzoniere — non una risposta a un’urgenza espressiva. Corretto, levigato, e perfettamente inerte.

Qui c’è qualcosa di diverso dai soliti test. MMLU verifica se il modello sa cose. HumanEval verifica se sa fare cose. La rima baciata verifica se sa sentire cose — o almeno se sa simulare il sentire abbastanza bene da ingannare un orecchio educato. È un test che mette in gioco non la conoscenza né la logica, ma il gusto. E il gusto è la cosa più difficile da formalizzare che esista.

Petrarca nel 1374 scriveva sonetti senza miliardi di parametri. Ma non scriveva nemmeno “amore/dolore” a caso: sapeva quando quella rima era giusta e quando era pigra. Sapeva che il verso 9 doveva girare, che la chiusa doveva chiudere, che il suono doveva servire il senso e non viceversa. Non era talento: era disciplina stratificata in decenni di pratica consapevole.

Il giorno in cui un modello rifiuterà una rima tecnicamente corretta perché non suona bene lì — non perché viola una regola, ma perché viola un’attesa estetica — quel giorno avremo qualcosa di interessante da discutere. Fino ad allora, stiamo misurando la capacità di timbrare il cartellino metrico. Che è già molto. Ma non è poesia.

Leave a comment

subscribe to my blog