LogProb e Confidenza nei Modelli Linguistici

Published on

in

,

Individuare le Allucinazioni nelle IA

Introduzione: La sfida delle allucinazioni nell’IA

Uno dei problemi più critici nell’uso dei modelli linguistici di grandi dimensioni (LLM) è il fenomeno delle allucinazioni – quando un modello genera informazioni che appaiono plausibili ma sono fattualmante errate o inventate. Questo fenomeno rappresenta un ostacolo significativo all’adozione di soluzioni basate su IA in contesti che richiedono alta affidabilità come sanità, finanza o sistemi legali.

In questo articolo, esploreremo come le log-probabilità (logprob) rappresentino uno strumento potente per identificare potenziali allucinazioni e migliorare l’affidabilità delle IA generative.

Cosa sono le LogProb e come funzionano

Le log-probabilità sono il logaritmo naturale della probabilità assegnata dal modello a una particolare scelta di token (parola o parte di parola). Quando un modello linguistico genera testo, in ogni posizione deve decidere quale sarà il prossimo token, e assegna a ciascuna possibilità una probabilità.

Proprietà matematiche chiave:

  • Il valore logprob è sempre ≤ 0 (essendo un logaritmo di un numero tra 0 e 1)
  • Logprob = 0 corrisponde a confidenza massima (100%)
  • Logprob = -1 corrisponde a circa 37% di confidenza
  • Logprob = -2 corrisponde a circa 14% di confidenza
  • Più il valore è vicino a zero, maggiore è la confidenza

La formula per convertire un logprob in percentuale di confidenza è:

confidenza_percentuale = e^(logprob) * 100

Dove e è il numero di Eulero (circa 2,718).

Metodologia: Analisi della confidenza per frase

Nella nostra analisi abbiamo utilizzato un approccio innovativo per visualizzare la confidenza non a livello di singoli token ma di intere frasi, rendendo l’analisi più intuitiva e semanticamente significativa:

  1. Estrazione dei logprob tramite l’API di OpenAI con il parametro logprobs=True
  2. Aggregazione dei token in frasi complete attraverso analisi del testo
  3. Calcolo della confidenza media per ciascuna frase
  4. Visualizzazione cromatica dal rosso (bassa confidenza) al verde (alta confidenza)

Questo approccio permette di identificare rapidamente quali parti di una risposta sono più affidabili e quali potrebbero contenere allucinazioni.

Studio comparativo: GPT-4o, GPT-4o-mini e GPT-4.1

Abbiamo condotto un esperimento sottoponendo la stessa domanda sui siti archeologici di Göbekli Tepe e Gunung Padang a tre diverse versioni dei modelli GPT, analizzando come variano i pattern di confidenza.

GPT-4o: Il rilevatore di allucinazioni più calibrato

Il modello GPT-4o ha mostrato una calibrazione epistemica notevolmente realistica:

  • Gradiente geografico di confidenza: alta sicurezza (70-90%) sulle informazioni relative a Göbekli Tepe (sito ampiamente studiato) e confidenza significativamente inferiore (50-70%) per Gunung Padang (sito più controverso)
  • Confidenza zero su affermazioni particolarmente incerte (come specifiche tecniche di scavo)
  • Alta differenziazione tra fatti consolidati e speculazioni

GPT-4o-mini: Omogeneo con peculiarità strutturali

GPT-4o-mini ha rivelato un pattern completamente diverso:

  • Range di confidenza più limitato (37-100%)
  • Uniformità tra fatti consolidati e speculazioni
  • Picchi anomali del 100% sui numeri degli elenchi puntati
  • Assenza di frasi con confidenza prossima allo zero

GPT-4.1: L’accademico cauto

GPT-4.1 ha mostrato una strategia di confidenza più simile a quella di un ricercatore prudente:

  • Una sola frase con alta confidenza (>85%), focalizzata su descrizioni visive concrete
  • Prevalenza di frasi a bassa confidenza (50-70%)
  • Confidenza zero mirata su punti scientificamente controversi
  • Approccio “accademicamente distaccato” con linguaggio qualificante

Perché questo caos è utile: l’applicazione pratica

Tutta questa complessità e varietà nei pattern di confidenza ha un’importanza pratica fondamentale:

1. Identificazione visiva delle allucinazioni

La colorazione delle frasi basata sulla confidenza (rosso per bassa confidenza, verde per alta) permette di identificare a colpo d’occhio quali parti di una risposta potrebbero contenere allucinazioni. Questa visualizzazione intuitiva consente anche a utenti non esperti di valutare criticamente le risposte dell’IA.

2. Filtraggio automatico delle risposte

È possibile implementare sistemi di filtraggio che:

  • Segnalano all’utente frasi con confidenza sotto una certa soglia (es. <60%)
  • Richiedono verifiche aggiuntive per affermazioni con bassa confidenza
  • Eliminano completamente contenuti con confidenza estremamente bassa (<30%)

3. Cascate di modelli più efficienti

L’analisi di confidenza permette di implementare architetture di IA a cascata dove:

  • Modelli piccoli e veloci (come GPT-4o-mini) generano risposte iniziali
  • Solo le parti con bassa confidenza vengono verificate da modelli più grandi
  • Si ottimizzano così costi e tempi di risposta mantenendo l’affidabilità

4. Training mirato per ridurre le allucinazioni

I pattern di confidenza permettono di:

  • Identificare categorie di conoscenza dove il modello produce più allucinazioni
  • Creare set di addestramento specifici per migliorare quelle aree
  • Valutare l’efficacia delle tecniche anti-allucinazione misurando i cambiamenti nei pattern di confidenza

Disponibilità della funzione LogProb nei principali LLM

La funzionalità di logprobs non è universalmente disponibile in tutti i modelli linguistici. Ecco un confronto della disponibilità nei principali LLM:

OpenAI (GPT-4, GPT-4o, ecc.)

  • ✅ Completamente supportato
  • Disponibile tramite il parametro logprobs=True nell’API
  • Permette anche di specificare top_logprobs per visualizzare le alternative considerate

Anthropic Claude

  • ❌ Non supportato ufficialmente
  • Secondo diverse fonti, incluso un thread su Stack Overflow, l’API di Claude non offre l’accesso ai logprobs
  • Questo è probabilmente una decisione deliberata legata alla filosofia di sicurezza di Anthropic

Google Gemini

  • ⚠️ Supporto limitato/sperimentale
  • Secondo discussioni nel forum degli sviluppatori Google AI, alcune versioni di Gemini supportano un parametro response_logprobs
  • Tuttavia, sembra essere soggetto a forti limitazioni di quota (3 richieste al giorno) o restituire solo logprob aggregati, non a livello di token

Modelli open source (LLaMA, Mistral, ecc.)

  • ✅ Generalmente supportato
  • I modelli accessibili tramite API come Together.ai offrono supporto per logprobs
  • Le implementazioni open source come llama.cpp permettono l’accesso diretto ai logprob quando si eseguono inferenze localmente

Conclusioni: GPT-4o come miglior rilevatore di allucinazioni

La nostra analisi comparativa suggerisce che GPT-4o potrebbe essere il modello più efficace per rilevare potenziali allucinazioni, per diverse ragioni:

  1. Distribuzione realistica dell’incertezza: La sua confidenza rispecchia accuratamente lo stato attuale delle conoscenze in un campo disciplinare
  2. Precisa identificazione dei punti critici: Assegna confidenza zero precisamente ai punti più controversi o speculativi
  3. Ampio range di valori: Utilizza l’intera gamma di confidenza (0-92%), permettendo una discriminazione più fine
  4. Allineamento con la realtà: Il suo gradiente di confidenza geografica, nel caso studiato, corrisponde perfettamente al consenso archeologico attuale

In pratica, per applicazioni che richiedono alta affidabilità, l’utilizzo di GPT-4o con visualizzazione della confidenza a livello di frase rappresenta attualmente la soluzione più promettente per individuare e mitigare il rischio di allucinazioni.

Riferimenti

  1. OpenAI. (2023). “Using logprobs”. OpenAI Cookbook.
  2. Clark, C. et al. (2022). “Measuring the Reliability of Language Models”. Transactions of the Association for Computational Linguistics.
  3. Together.ai. (2025). “Getting started with logprobs”. Together.ai Documentation.
  4. Kadavath, S. et al. (2022). “Language Models (Mostly) Know What They Know”. arXiv preprint.
  5. Google AI Developers. (2025). “Get logprobs at output token level”. Google AI Developers Forum.

Nota: Quest’analisi si concentra specificamente sulla confidenza come riportata dal modello stesso, che non garantisce necessariamente l’accuratezza fattuale. I modelli possono essere confidenti ma errati, o incerti ma corretti. L’uso dei logprob dovrebbe essere sempre complementare, non sostitutivo, a verifiche fattuali indipendenti.

Leave a comment


Benvenuto su Salahzar.com

Qui trovi analisi critiche sull’intelligenza artificiale e le sue implicazioni sociali, scritte da chi viene da una impostazione umanistica e ha passato vent’anni a costruire mondi virtuali prima che diventassero “metaverso”.

Niente hype da Silicon Valley o entusiasmi acritici: sul tavolo ci sono le contraddizioni dell’innovazione tecnologica, i suoi miti fondativi, le narrazioni che usiamo per darle senso. Dai diari ucronici (storie alternative come strumento per capire i nostri bias cognitivi) alle newsletter settimanali sugli sviluppi dell’AI che richiedono aggiornamenti continui perché i trimestri sono già preistoria.

Se cerchi guide su come “fare soldi con ChatGPT” o liste di prompt miracolosi, sei nel posto sbagliato. Se invece ti interessa capire cosa sta succedendo davvero – tra hype, opportunità concrete e derive distopiche – sei nel posto giusto.

Umanesimo digitale senza retorica, analisi senza paternalismi, ironia senza cinismo.


Join the Club

Stay updated with our latest tips and other news by joining our newsletter.