Appunti di prompt engineering collaborativo, tra Firenze e il dialogo con le AI.
Mercoledì prossimo mostrerò Fooocus a un gruppo di docenti. È uno di quei tool di generazione immagini che promettono semplicità — interfaccia pulita, pochi parametri, risultati decenti in pochi secondi. Lo uso da qualche settimana per capire cosa funziona e cosa no, così da non arrivare all’incontro con le solite slide teoriche che fanno sbadigliare.
L’idea era semplice: generare una donna che assomigliasse alla Gioconda, seduta a un caffè di Firenze con un espresso in mano. Un omaggio ironico, una trasposizione contemporanea. Leonardo nel 1503; io con una GPU nel 2025. Stessa città, stesso soggetto, mezzo diverso.
Il problema è che la Monna Lisa non voleva sparire.
Il committente e l’algoritmo
Nel Rinascimento il rapporto tra committente e artista era fatto di trattative, ripensamenti, aggiustamenti continui. Piero della Francesca negoziava i blu — costosi, quelli di lapislazzuli — con chi pagava. Michelangelo litigava con Giulio II sulla Sistina. Il risultato finale era sempre un compromesso tra visione e vincoli.
Con i generatori di immagini il meccanismo è simile, solo che il “pittore” è un modello statistico addestrato su miliardi di immagini, e la trattativa avviene attraverso parole: i prompt. Descrivi cosa vuoi, ottieni qualcosa di approssimato, correggi, riprovi. La differenza è che l’algoritmo non capisce davvero cosa chiedi — interpreta pattern linguistici e li traduce in pixel. A volte indovina. Spesso fraintende.
Nel mio caso, il fraintendimento era ostinato e quasi comico.
Quando l’icona torna
Il primo tentativo produceva immagini discrete: donne eleganti, sfondo fiorentino, espresso sul tavolo. Ma nessuna somigliava davvero alla Gioconda. Troppo moderne, troppo patinate, troppo influencer. Serviva più aderenza all’originale.
Ho affinato il prompt: “exact same facial features as Leonardo da Vinci’s Mona Lisa, mysterious subtle smile, center-parted dark hair”. I risultati miglioravano — finché non ho notato il problema.
In due immagini su quattro, sullo sfondo, campeggiava un quadro. Il quadro. La Monna Lisa originale, incorniciata, appesa a una parete del caffè immaginario. Come se il modello, nel tentativo di evocare il soggetto, avesse deciso di citare la fonte. Letteralmente.
C’è qualcosa di ironico in questo. Chiedi all’AI di reinterpretare un’icona, e lei ti restituisce l’icona stessa — non riesce a separare il concetto dalla sua rappresentazione più famosa. È un po’ come chiedere a qualcuno di raccontarti Amleto con parole sue, e quello ti recita il monologo originale. Tecnicamente pertinente; praticamente inutile.
Il dialogo come metodo
A questo punto ho fatto una cosa che si rivela sempre più utile: ho coinvolto Claude nel processo. Non come oracolo, ma come interlocutore.
Gli ho mostrato i risultati — le immagini generate — e gli ho chiesto di analizzare cosa non funzionava. Lui vedeva quello che vedevo io: la Monna Lisa in cornice sullo sfondo, il meta-effetto involontario. Insieme abbiamo ragionato sul perché.
Il problema era Firenze. O meglio: l’associazione che il modello fa tra “Florence café” e “arte rinascimentale”. Interni fiorentini = pareti con quadri = alta probabilità di Gioconda appesa. La soluzione non era aggiungere prompt negativi più aggressivi — quelli aiutavano, ma non risolvevano — bensì cambiare contesto.
I modelli diffusion non “sanno” che Firenze è piena di arte — hanno attraversato milioni di immagini taggate, e quelle associazioni si sono sedimentate in vicinanze statistiche. “Florence café interior” abita lo stesso spazio latente di “Renaissance painting on wall”. Non è ragionamento; è geografia dei dati.
“Outdoor street café” invece di “Florence café”. Portare la scena all’aperto, dove non ci sono pareti su cui appendere dipinti. Il modello, privato del contesto “interni artistici”, ha smesso di generare quadri in background.
Quattro immagini, quattro sfondi puliti. Architetture sfocate, tavolini all’aperto, luce naturale. E la donna con il sorriso enigmatico, finalmente sola.
L’ironia del fulmine
Un dettaglio tecnico che vale la pena annotare, perché dice qualcosa sulla natura di questi strumenti.
Fooocus ha tre modalità: Lightning (velocissima), Speed (veloce), Quality (lenta ma accurata). Lightning non permette di modificare il prompt negativo — quello che dice al modello cosa non generare. Per escludere i quadri dallo sfondo, ho dovuto passare a Speed. Risultato: il metodo “più veloce” non mi permetteva di ottenere quello che volevo; quello “più lento” sì.
È una metafora involontaria. La velocità senza controllo produce risultati generici. La lentezza con precisione produce risultati specifici. Vale per i generatori di immagini; vale per la didattica; vale per quasi tutto.
Cosa mostrare mercoledì
Ai docenti non mostrerò solo le immagini finali. Mostrerò il processo: i tentativi falliti, i quadri che sbucavano, la trattativa con l’algoritmo, la soluzione laterale. Perché il valore didattico non sta nel prodotto — una foto finta di una donna che assomiglia a un dipinto del 1503 — ma nel metodo.
Il prompt engineering non è magia lessicale. È un dialogo iterativo, fatto di osservazione, ipotesi, correzione. Esattamente come si insegna a scrivere: prima bozza, revisione, feedback, riscrittura. Solo che qui il feedback è visivo e istantaneo, e le revisioni sono aggiustamenti di parole che modificano pixel.
E c’è un altro elemento che vale la pena sottolineare: la collaborazione con un’altra AI — Claude — per analizzare i risultati della prima. Non è ridondanza; è triangolazione. Un generatore produce, un modello linguistico interpreta, l’umano decide. Tre sguardi sullo stesso problema.
È un pattern che vale la pena formalizzare: quando un generatore produce un risultato inatteso, l’errore è spesso più informativo del successo — ma solo se hai un modo per leggerlo. Il modello linguistico funziona come interprete: non vede i pixel, vede la discrepanza tra intenzione e risultato. È una forma di debugging semantico, dove il bug non è nel codice ma nella traduzione tra linguaggio e immagine.
La Gioconda che resta
Alla fine, la Monna Lisa è sparita dallo sfondo. Ma in un certo senso è rimasta — nel volto della donna generata, nel sorriso calibrato, nella posa delle mani attorno alla tazzina.
Forse è questo che succede con le icone culturali: puoi spostarle, reinterpretarle, trasferirle in contesti nuovi, ma non puoi cancellarle davvero. Si depositano negli strati — dei modelli, della memoria collettiva, del nostro modo di vedere.
Leonardo lo sapeva. Non ha mai consegnato il quadro al committente. Se l’è tenuto, modificandolo per anni, portandoselo dietro fino in Francia. Anche lui, a modo suo, faceva prompt engineering. Solo che i suoi tempi di generazione erano un po’ più lunghi.
Le quattro immagini finali sono allegate al post. Non sono capolavori — e forse non potrebbero esserlo: traslare un’icona produce inevitabilmente citazione, mai creazione. Ma raccontano un processo. E forse, per ora, è il processo la cosa più interessante da imparare.




Riferimenti
- Fooocus: Fork di Stable Diffusion con interfaccia semplificata, sviluppato da lllyasviel. Repository GitHub: github.com/lllyasviel/Fooocus
- Prompt engineering iterativo: Il metodo descritto si basa sulla pratica del negative prompting e sulla comprensione delle associazioni semantiche nei modelli diffusion-based.
- Contesto storico: Sul rapporto committente-artista nel Rinascimento, cfr. Baxandall, Painting and Experience in Fifteenth Century Italy (1972) — ancora il riferimento classico per capire come nascevano le commissioni.
Salahzar Stenvaag • Novembre 2025

Leave a comment