Avere 1M token di contesto e non sentirli….

Published on

in

GPT-4.1 vs Gemini vs Qwen vs Llama: Chi è il vero maestro di Jane Austen?

Cosa succede quando chiedi alle AI più avanzate di analizzare “Emma” di Jane Austen? Ho deciso di condurre un esperimento brutale per scoprirlo: lanciare l’intero romanzo (ben 887.071 caratteri, che si traducono in circa 210.000 token) e vedere quali modelli riescono a digerire questo banchetto letterario senza soffocare.

Perché questo test è importante (e un po’ sadico)

I contesti ampi sono la nuova frontiera delle AI. Non basta più rispondere a domande semplici – vogliamo modelli che possano leggere un intero romanzo e discuterne i dettagli più minuti. Ho scelto deliberatamente domande sui personaggi secondari e scene specifiche dall’inizio, metà e fine del libro per verificare se questi modelli potessero davvero mantenere il contesto attraverso centinaia di migliaia di parole.

È come chiedere a qualcuno di recitare il nome del terzo cugino di un personaggio menzionato solo a pagina 147. Crudele? Forse. Informativo? Assolutamente.

GPT-4.1: Il professorino d’inglese che ha effettivamente letto i libri

Ho testato tre varianti di GPT-4.1: nano, mini e standard. La versione nano ha completato il test in soli 10,51 secondi generando 1.573 token – impressionante per velocità, ma con un’analisi più superficiale. È come quello studente brillante che ha letto solo il riassunto ma riesce comunque a prendere un buon voto.

Le versioni mini e standard hanno impiegato circa 56 secondi ciascuna, producendo risposte di oltre 3.000 token. La differenza? GPT-4.1 standard è come il professore universitario che non solo conosce il testo, ma ti fornisce anche l’esatto volume e capitolo per ogni citazione. Ha mostrato la comprensione più precisa dei personaggi secondari e delle loro motivazioni, con quel tocco accademico che fa pensare “questo ha davvero capito Austen”.

Particolarmente notevoli le sue analisi della posizione sociale di Miss Bates e della complessa gelosia di Emma per le abilità musicali di Jane Fairfax – argomenti che solo chi ha veramente assorbito il libro potrebbe articolare così bene.

Gemini: Dalle stelle alle stalle (e ritorno)

Oh, che differenza tra Gemini Flash 2.0 e Gemini 2.5 Pro! Il primo è come lo studente che ha guardato l’adattamento BBC invece di leggere il libro – ha afferrato i concetti generali ma ha confuso Frank Churchill con Jane Fairfax e citato dialoghi che Austen non ha mai scritto.

Gemini 2.5 Pro, d’altra parte, è stata una sorpresa positiva. Si è avvicinata alla qualità di GPT-4.1 standard con citazioni precise e riferimenti ai volumi/capitoli. Ha mostrato una comprensione notevole delle dinamiche sociali e della psicologia dei personaggi, quasi al livello del campione in carica.

È come vedere un concorrente sottovalutato in un quiz letterario che improvvisamente inizia a recitare interi passaggi a memoria. Nessuno se lo aspettava, ma tutti sono colpiti.

Qwen 2.5 Turbo: Ha studiato il libro sbagliato?

Qwen 2.5 Turbo ha affrontato solo 4 delle 6 domande originali, il che mi fa pensare che abbia abbandonato l’esame a metà. Peggio ancora, molte delle sue “citazioni” sembrano inventate di sana pianta, come se stesse cercando di bluffare con un professore che conosce il testo a memoria.

Ha anche affermato che Frank Churchill è il cugino di Jane Fairfax (falso) e ha inventato dialoghi per Isabella Knightley che non esistono nel romanzo. È come quello studente che si addormenta durante le lezioni e poi tenta di improvvisare all’esame.

La formattazione era gradevole, con punti elenco e markdown ben organizzati, ma è come indossare un bell’abito a un colloquio di lavoro mentre rispondi alle domande in una lingua diversa da quella richiesta.

Llama 4 Maverick: Confuso ma ci prova

Llama 4 Maverick ha tentato coraggiosamente di rispondere a tutte e sei le domande, ma è inciampato in modo spettacolare affermando che “La cena della vigilia di Natale a Randalls non è esplicitamente menzionata nel testo fornito” – quando è una scena fondamentale del romanzo!

Ha citato ripetutamente il “Capitolo XIV” per eventi disseminati in tutto il libro, come se stesse cercando di orientarsi in una casa al buio. È come uno studente che frequenta sporadicamente le lezioni e poi cerca di collegare i frammenti di informazioni memorizzate senza comprendere la struttura generale.

Apprezzo lo sforzo di Llama, ma confondere le linee temporali e gli eventi chiave in un’analisi letteraria è come un cuoco che confonde il sale con lo zucchero – cambia completamente il risultato.

Verdetto finale: Chi regge davvero 210K token?

Dopo questa maratona austeniana, posso affermare con sicurezza che GPT-4.1 standard è il vincitore indiscusso, con Gemini 2.5 Pro come sorprendente secondo classificato. Entrambi hanno dimostrato di poter gestire efficacemente un contesto di 210K token, mantenendo la coerenza dall’inizio alla fine del romanzo.

GPT-4.1 ha brillato per precisione accademica e profondità di analisi, mentre Gemini 2.5 Pro si è distinto per il bilanciamento tra concisione e accuratezza.

Qwen 2.5 Turbo e Llama 4 Maverick sembrano ancora aver bisogno di qualche lezione di letteratura inglese prima di poter affrontare Jane Austen con sicurezza.

La versione nano di GPT-4.1 merita una menzione speciale per la sua velocità impressionante – se hai bisogno di una risposta rapida ma decente su un testo lungo, potrebbe essere la scelta migliore.

In conclusione, se stai pianificando di discutere i dettagli più fini di un romanzo classico con un’AI, GPT-4.1 standard e Gemini 2.5 Pro sono i tuoi migliori compagni di conversazione. Gli altri… beh, diciamo che sono ancora nella fase “ho letto solo la quarta di copertina” della loro educazione letteraria.

E ricorda: la prossima volta che qualcuno ti dice che le AI non possono gestire contesti lunghi, rispondi che possono leggere l’intero “Emma” e discutere delle tendenze al pettegolezzo di Miss Bates – anche se alcune lo fanno decisamente meglio di altre!

Leave a comment


Benvenuto su Salahzar.com

Qui trovi analisi critiche sull’intelligenza artificiale e le sue implicazioni sociali, scritte da chi viene da una impostazione umanistica e ha passato vent’anni a costruire mondi virtuali prima che diventassero “metaverso”.

Niente hype da Silicon Valley o entusiasmi acritici: sul tavolo ci sono le contraddizioni dell’innovazione tecnologica, i suoi miti fondativi, le narrazioni che usiamo per darle senso. Dai diari ucronici (storie alternative come strumento per capire i nostri bias cognitivi) alle newsletter settimanali sugli sviluppi dell’AI che richiedono aggiornamenti continui perché i trimestri sono già preistoria.

Se cerchi guide su come “fare soldi con ChatGPT” o liste di prompt miracolosi, sei nel posto sbagliato. Se invece ti interessa capire cosa sta succedendo davvero – tra hype, opportunità concrete e derive distopiche – sei nel posto giusto.

Umanesimo digitale senza retorica, analisi senza paternalismi, ironia senza cinismo.


Join the Club

Stay updated with our latest tips and other news by joining our newsletter.