Analisi di un testo con Llama 3.2 visio

Published on

in

Con mercier avevo fatto un lavoro di trascrizione di un libro del ‘700, ma avevo utilizzato strumenti a pagamento (Claude Sonnet, Gpt4o), il secondo in particolare per leggere il testo dalle immagini (OCR) e il primo per la fluidita’ di linguaggio che lo contraddistingue, in modo da generare articoli interessanti riducendo l’aspetto AI in modo che potesse sembrare scritto da un uomo.
Con la disponibilita’ di Llama 3.1 90B Visio abbiamo finalmente un modello che gira con poche risorse di calcolo, quindi potenzialmente sul nostro laptop o addirittura sul nostro cellulare (ed e’ quasi OpenSource, non lo e’ completamente perche’ Meta inserisce alcune limitazioni al suo utilizzo.

Nel seguente articolo esaminiamo il processo di digitalizzazione delle prime pagine del famoso libro del ‘700 Robinson Crusoe, utilizzando modelli LLM come Llama 3.1 e 3.2.

1. Reperimento del materiale

Dopo una breve ricerca, troviamo la versione originale del libro in formato immagine qui,

Troviamo la prima pagina scritta:

che contiene pagine in formato PNG o JPG.

2. OCR con Llama 3.2

Utilizziamo Llama 3.2 90B Visio per eseguire il riconoscimento ottico del testo (OCR). Grazie all’aumento del limite di token (da 512 a 1000) e alla temperatura impostata su 0 per minimizzare la creatività, il modello restituisce una trascrizione accurata, pur con piccoli difetti. Ecco un esempio:

La diamo in pasto a uno qualunque dei siti che permettono di usare Llama 3.2 90B Visio (la versione 11B funziona ma tende a troncare i testi quindi non e’ consigliabile):

Il prompt

leggi il testo. attieniti solo a quanto scritto, senza fare estensioni, commenti o aggiungere info non presenti. devi riportarmi quanto letto come farebbe un OCR.

che cerca di limitare la creativita’ quanto piu’ e’ possibile. Il risultato e’ gia’ molto interessante:

AVVENTURE

BY ROBINSON CRUSOE

PARTENZA – PRIME AVVENTURE

acqui a York nel 1632 di una famiglia Questa, venutavi da altro paese. Mio padre, nativo di Bremia, esercitò il commercio a Hull e vi acquistò una bella so-stanza: indi andò a stanziare a York, dove sposò mia madre, la quale era della famiglia Robinson, una delle migliori della Contea. Di la venne il nome di Robinson Aventurier, che noi pertavamo, e che cor-rotto poi si cambió in Crusoe, nonne con cui

FINIS

L’output è generalmente buono, ma presenta alcuni errori, come “Questa” al posto di “onesta”. A questo punto, applichiamo una correzione con Llama 3.1, che ha una migliore gestione della lingua italiana.

3. Correzione con Llama 3.1

Nonostante il system prompt limitato alla pura trascrizione, il modello richiede comunque una revisione manuale finale per correggere difetti minori. Ad esempio, ecco il testo corretto della prima pagina:

AVVENTURE

DI ROBINSON CRUSOE

PARTENZA – PRIME AVVENTURE

Nacqui a York nel 1632 da una famiglia onesta, proveniente da un altro paese. Mio padre, nativo di Brema, esercitava il commercio a Hull e vi acquistò una bella casa: poi si trasferì a York, dove sposò mia madre, la quale era della famiglia Robinson, una delle migliori della contea. Da lì venne il nome di Robinson Aventurier, che noi portavamo, e che corrotto poi si cambiò in Crusoe, con cui

come si vede l’intervento esiste e il fatto che occorra controllarlo per errori banali, garantisce una revisione accurata.


4. Digitalizzazione della seconda pagina

Utilizziamo lo stesso approccio per la seconda pagina, con Llama 3.2 per il riconoscimento iniziale e Llama 3.1 per la correzione.

Il risultato finale, dopo un’ulteriore verifica manuale, è il seguente:


ROBINSON CRUSOE

I miei parenti ed io ci sottoscriviamo; ed i miei compagni mi hanno sempre chiamato così.

Ho due fratelli maggiori di me; il primo, tenente colonnello di un reggimento di fanteria comandato dal celebre colonnello Lvelsent, fu ucciso in una battaglia contro gli Spagnoli a Dunkerque. Quanto al secondo, non ne ho mai più saputo niente, come non hanno più saputo di me i miei genitori.

Siccome io ero il terzo dei figli e non avevo imparata veruna professione, una quantità di idee e di progetti mi si aggrappavano per la testa. Mio padre, che era allora molto avanzato in età, mi aveva procurata una sufficiente educazione dandomi lezioni egli stesso e mandandomi alle scuole pubbliche. Egli mi destinava alla carriera legale; ma ben diversi erano i miei progetti. Dominato principalmente dalla passione dei viaggi di mare, resisteva alle volontà di mio padre ed alle preghiere di mia madre con una ostinazione da cui facile era il vedere che una specie di fatale destino mi spingeva verso uno stato di patimenti e di miseria.

Mio padre, non grave e saggio, mi dava eccellenti consigli; ma erano parole gettate al vento. Una mattina mi chiamò nella sua stanza dove era confinato dalla gotta, e mi fece le più calde rimostranze. Mi domandò, per quale aberrazione di mente io volessi in tal guisa abbandonare il tetto paterno ed il suolo nativo, ove tutto mi prometteva un felice avvenire, e dove mi si presentava la duplice prospettiva di beni acquistati coll’industria e col lavoro, e di una vita agiata e tranquilla.

Mi disse che non vi erano se non due sorta di persone: le une prive di qualunque cosa, le altre poste in un rango superiore, alle quali si addirebbe il lanciarsi in grandi imprese, e l’andare per il mondo in cerca di avventure, perché era questo un mezzo di innalzarsi e rendere celebri per una strada battuta da pochi. Che una simile carriera era di molto troppo al disopra e nello stesso tempo troppo al disotto di me; che il mio posto era nella classe di mezzo, quello che può chiamarsi il primo piano della vita civile.

Mi disse che per mezzo di una lunga esperienza egli aveva appreso che quella posizione era la migliore di tutte, e la più ricca sorgente di felicità umane, al espetto della miseria, delle fatiche e dei disagi della gente di lavoro, esente dall’orgoglio, dal lusso, dall’ambizione e dalla invidia dei grandi del mondo. Mi disse che potrei giudicare della beatitudine di tale stato dalla sola circostanza che era da tutti invidiato; che si erano più di una volta veduti di re gemere sulle triste conseguenze di un’alta nascita, e desiderare di vivere nella mezzana condizione, lontani dai due estremi della esistenza sociale.

Mi faceva notare come cosa che doveva verificarsi per me in appresso, ed è che tanto le persone di alta condizione quanto quelle del basso popolo avevano la loro parte delle calamità umane; ma che lo stato di mediocrità non andava soggetto a tali disastri; e che in quello stato non si correva il rischio di vicende simili a quelle cui

5. Conclusioni

L’approccio combinato tra Llama 3.2 per l’OCR, Llama 3.1 per la correzione, e una revisione manuale, consente di ottenere una trascrizione accurata e fluida. Sebbene GPT-4o sia ancora superiore per velocità e fluidità, questa soluzione è particolarmente interessante per chi cerca un’alternativa con minori risorse computazionali.

Leave a comment


Benvenuto su Salahzar.com

Qui trovi analisi critiche sull’intelligenza artificiale e le sue implicazioni sociali, scritte da chi viene da una impostazione umanistica e ha passato vent’anni a costruire mondi virtuali prima che diventassero “metaverso”.

Niente hype da Silicon Valley o entusiasmi acritici: sul tavolo ci sono le contraddizioni dell’innovazione tecnologica, i suoi miti fondativi, le narrazioni che usiamo per darle senso. Dai diari ucronici (storie alternative come strumento per capire i nostri bias cognitivi) alle newsletter settimanali sugli sviluppi dell’AI che richiedono aggiornamenti continui perché i trimestri sono già preistoria.

Se cerchi guide su come “fare soldi con ChatGPT” o liste di prompt miracolosi, sei nel posto sbagliato. Se invece ti interessa capire cosa sta succedendo davvero – tra hype, opportunità concrete e derive distopiche – sei nel posto giusto.

Umanesimo digitale senza retorica, analisi senza paternalismi, ironia senza cinismo.


Join the Club

Stay updated with our latest tips and other news by joining our newsletter.