Il segnale che si perde: dai Lumière a LongVie 2

Published on

in

, ,

Centotrent’anni per imparare a tenere insieme i fotogrammi. L’AI riparte da capo.


Il caleidoscopio e il fruscio

A cinque anni avevo un caleidoscopio di plastica rossa. Lo agitavo, guardavo dentro, e ogni volta compariva un mandala diverso — stesso tubo, stessi sassolini colorati, stessi specchi, ma configurazioni infinite. Non capivo come funzionasse. Non m’importava. Era magia che si ripeteva a comando.

Poi c’era il televisore. Non i programmi — quelli venivano dopo. Prima c’era l’attesa: l’effetto neve, le righe orizzontali che si assestano, quel ronzio sordo prima che apparisse l’immagine. Il segnale che arrivava da qualche parte, fragile, intermittente. A volte bastava che passasse un aereo e tutto sfrigolava.

A dieci anni la passione si spostò sulle radio a onde corte. Antenne improvvisate sul balcone, manopole girate lentamente, frequenze che emergevano dal nulla. Radio Praga, Il Cairo, la BBC World Service — voci che duravano trenta secondi e poi sparivano nel fruscio. Il segnale si degradava con la distanza. Lo capivo senza saperlo: più lontano vai, più perdi.

Oggi guardo i modelli di generazione video — Sora, Veo 3, LongVie 2 — e riconosco lo stesso problema. Il segnale, a un certo punto, si perde.


1894: cinque secondi di eternità

Quando Edison presentò il Kinetoscopio nel 1894, i filmati duravano cinque secondi. Non per scelta estetica — per limite tecnico. La pellicola era corta, il meccanismo fragile, la sincronizzazione un miracolo. Fred Ott’s Sneeze, il primo film con copyright della storia, dura esattamente quel che sembra: uno starnuto. Inizio, climax, fine [1].

Un anno dopo, i fratelli Lumière allungarono a venti, trenta, cinquanta secondi. L’arrivée d’un train en gare de La Ciotat dura 50 secondi — abbastanza perché il pubblico, secondo la leggenda, scappasse terrorizzato. Non era la qualità dell’immagine a spaventarli. Era la durata: abbastanza lunga da sembrare reale, abbastanza coerente da ingannare il cervello [2].

Nel giro di cinque anni, Georges Méliès arrivò a quindici minuti. Le Voyage dans la Lune (1902) non è solo il primo film di fantascienza — è la dimostrazione che si poteva raccontare qualcosa, non solo mostrare. Serviva montaggio, continuità narrativa, trucchi per nascondere i tagli. Méliès inventò gli effetti speciali perché doveva risolvere un problema tecnico: come tenere insieme i pezzi [3].

La traiettoria è chiara:

AnnoDurataInnovazione chiave
1894~5 secondiRegistrazione del movimento
189520-50 secondiProiezione pubblica, “realismo”
190214 minutiMontaggio, narrativa, effetti

Il collo di bottiglia non era mai la qualità del singolo fotogramma. Era la coerenza nel tempo.


2024: di nuovo cinque secondi

Centotrenta anni dopo, siamo esattamente allo stesso punto.

Quando OpenAI mostrò Sora nel febbraio 2024, i video duravano dieci, quindici, massimo sessanta secondi. Impressionanti, certo — ma corti. Google rispose con Veo, stessa storia. Runway, Pika, Kling: tutti bloccati sulla stessa soglia. Non per pigrizia. Per lo stesso motivo di Edison: il segnale si degrada [4].

Nei modelli di diffusione video, il “segnale” è lo spazio latente — una rappresentazione compressa dell’immagine che il modello manipola e poi decodifica. Funziona benissimo per pochi secondi. Ma allungando la generazione, succede quello che succedeva alle mie radio a onde corte: il fruscio aumenta, i dettagli sbiadiscono, la coerenza si perde. Un personaggio cambia faccia. Un oggetto sparisce. La fisica smette di funzionare.

Il problema ha un nome tecnico: error accumulation. Ogni fotogramma generato diventa input per il successivo. Gli errori non si cancellano — si sommano. Come fotocopiare una fotocopia: alla decima iterazione, hai rumore [5].


LongVie 2: il Méliès dell’intelligenza artificiale

Ed ecco che arriva LongVie 2, presentato il 18 dicembre 2024 da un consorzio di università cinesi (Fudan, Nanjing, Tsinghua) con Nvidia e S-Lab di Singapore. Promette video coerenti fino a cinque minuti. Non è magia — è ingegneria del segnale [6].

Il trucco sta in tre innovazioni che, a guardarle bene, sono le stesse di Méliès:

1. Guida multimodale — Méliès usava scenografie dipinte, fili invisibili, maschere. LongVie 2 usa segnali di controllo densi (mappe di profondità, flusso ottico) e sparsi (traiettorie di movimento, keypoint). Non lascia il modello libero di “immaginare” — lo guida, fotogramma per fotogramma.

2. Addestramento consapevole della degradazione — Méliès sapeva che la pellicola si graffiava, che i colori sbiadivano, e dipingeva i fotogrammi a mano per compensare. LongVie 2 viene addestrato su frame già degradati, così impara a gestire gli artefatti prima che compaiano. Previene invece di curare.

3. Contesto storico tra i clip — Méliès inventò il montaggio per nascondere i tagli. LongVie 2 usa le ultime immagini di ogni segmento come “memoria” per il segmento successivo. Non genera un video continuo — genera clip che si ricordano l’uno dell’altro.

Méliès tagliava celluloide con le forbici; LongVie 2 manipola tensori a 32 bit. Mezzi incomparabili. Ma il problema era identico: come nascondere le giunture, come far dimenticare allo spettatore che sta guardando pezzi incollati. L’ingegneria del trucco non è cambiata — si è solo spostata di livello.

Il risultato? Video di tre, quattro, cinque minuti con coerenza accettabile. Non perfetta. Ma funzionale — come i film di Méliès erano funzionali: bastava che il pubblico restasse incantato.

Ma attenzione: cinque minuti di coerenza visiva non sono cinque minuti di storia. LongVie 2 risolve la persistenza del segnale — il personaggio non cambia faccia, la luce resta coerente, gli oggetti non spariscono. Non risolve la persistenza del senso — perché il personaggio stia ancora camminando nel vuoto dopo quattro minuti, il modello non lo sa. E forse non gl’importa.


Il monoscopio e l’attesa

C’è un’immagine che chi ha più di cinquant’anni ricorda: il monoscopio RAI. Quel cerchio con le linee di calibrazione, i numeri, il logo. Appariva prima delle trasmissioni, durante le pause, nelle “prove tecniche”. Era un’immagine statica che diceva: il segnale c’è, aspetta.

I modelli video AI hanno il loro monoscopio: il primo fotogramma. In Sora, in Veo, in LongVie 2, tutto parte da lì — un’immagine iniziale (generata o fornita) che definisce il “mondo” del video. Se quel frame è buono, il resto segue. Se è ambiguo, il modello si perde.

LongVie 2 fa una cosa interessante: accetta frame iniziali degradati. Sfocati, rumorosi, imperfetti. Li usa comunque. È come se il monoscopio RAI avesse le righe storte e la trasmissione partisse lo stesso. Sembra un dettaglio tecnico; è una rivoluzione concettuale. Significa che il modello non ha bisogno di condizioni ideali per funzionare.

Alberini, il pioniere italiano che costruì il primo proiettore cinematografico nazionale nel 1895, lavorava con mezzi improvvisati — legno, ottone, ingranaggi di bicicletta. Non aspettò di avere l’attrezzatura perfetta. LongVie 2 ha la stessa filosofia: si parte con quello che c’è [7].


Perché Sora e Veo non “usano” LongVie 2

Chi ascoltava onde corte sapeva che la fatica aveva un premio. Costruivi l’antenna, calibravi la sintonia, aspettavi il momento giusto — e sentivi Il Cairo. Chi accendeva la radio AM sentiva solo Radio Padania. Comodo, ma chiuso.

In edu3d abbiamo passato anni su Blender. Potevi modellare qualsiasi cosa — mesh, armature, fisica, rendering. Ma la curva di apprendimento era una parete verticale, e i docenti ci guardavano come si guarda chi propone un’escursione sull’Everest per la gita scolastica. Eppure chi la scalava, quella parete, poi faceva cose che con SketchUp potevi solo sognare.

LongVie 2 è onde corte. È Blender. Richiede segnali di controllo espliciti — devi fornire traiettorie, mappe di profondità, keypoint. Devi sapere cosa stai chiedendo. Sora e Veo sono FM, sono SketchUp: scrivi un prompt, esce un video. Nessun controllo intermedio. L’utente non deve sapere niente di spazi latenti o flusso ottico.

La Silicon Valley ha un dogma: se l’utente deve leggere un manuale, hai fallito. Per chi ha passato vent’anni a spiegare che “facile” e “potente” raramente coincidono, quel dogma suona come una resa. Ma i mercati premiano la semplicità, non la potenza. E Google e OpenAI costruiscono prodotti, non strumenti per artigiani.

C’è anche una questione di architettura. Sora usa latenti spazio-temporali tridimensionali — il video viene “pensato” tutto insieme, non clip per clip. È elegante ma costoso in memoria. LongVie 2 usa un approccio autoregressivo: genera un pezzo, poi il successivo, poi il successivo. Meno elegante, più scalabile.

Nessuno dei due ha “ragione”. Sono filosofie diverse per problemi diversi. Méliès e i Lumière coesistevano: uno faceva documentari di trenta secondi, l’altro viaggi sulla Luna di quindici minuti. Il cinema li ha assorbiti entrambi.


Il caleidoscopio, di nuovo

Torno al caleidoscopio. Quei sassolini colorati non cambiavano mai — erano sempre gli stessi, chiusi nel tubo. Quello che cambiava era la configurazione: come gli specchi li riflettevano, come la luce li attraversava, come il mio gesto li rimescolava.

I modelli generativi funzionano allo stesso modo. I “sassolini” sono i pattern appresi durante l’addestramento — miliardi di immagini, video, relazioni statistiche. Quello che cambia è la configurazione: il prompt, il seme casuale, i segnali di controllo. Stesso tubo, mandala sempre diversi.

Con una differenza: il caleidoscopio ricombinava sassolini veri. L’AI interpola concetti — calcola medie tra cose che non sono mai state insieme. A volte il risultato è nuovo; a volte è un’allucinazione. Il fruscio, di nuovo.

Ma il caleidoscopio aveva un limite: non potevi controllare quale mandala sarebbe apparso. Agitavi e speravi. LongVie 2 prova a superare quel limite — ti dà le leve per influenzare la configurazione. Non è più solo magia. È magia con istruzioni.

A cinque anni non capivo come funzionasse. A sessantatré, comincio a intuirlo. E scopro che la domanda interessante non è “come genera immagini nuove” — è “come le tiene insieme nel tempo”.

Ma c’è un’altra domanda, più scomoda: perché?

I Lumière volevano catturare la realtà — il treno che arriva, gli operai che escono dalla fabbrica. Méliès voleva sognare — la luna con l’occhio ferito, il diavolo che danza. LongVie 2 vuole… generare. Non catturare, non sognare: riempire. Feed, timeline, schermi. Il segnale dura di più, ma il messaggio dov’è?

Forse è presto per chiederlo. Edison non sapeva che stava inventando Hollywood; i Lumière pensavano di aver costruito un giocattolo scientifico. Il senso arriva dopo, quando qualcuno usa lo strumento per dire qualcosa che vale la pena ascoltare.

Edison ci mise cinque secondi. I Lumière cinquanta. Méliès quindici minuti. LongVie 2 cinque minuti.

Il segnale si perde ancora. Ma sempre un po’ più lentamente.


Riferimenti

[1] Musser, C. (1994). The Emergence of Cinema: The American Screen to 1907. University of California Press. — Storia del Kinetoscopio e dei primi film Edison.

[2] Loiperdinger, M. (2004). “Lumière’s Arrival of the Train: Cinema’s Founding Myth”. The Moving Image, 4(1), 89-118. — Analisi critica del mito del “pubblico terrorizzato”.

[3] Ezra, E. (2000). Georges Méliès: The Birth of the Auteur. Manchester University Press. — Innovazioni tecniche e narrative di Méliès.

[4] Ho, J. et al. (2022). “Video Diffusion Models”. arXiv:2204.03458. — Paper fondativo sui modelli di diffusione video e i loro limiti.

[5] Blattmann, A. et al. (2023). “Stable Video Diffusion”. arXiv:2311.15127. — Discussione tecnica dell’accumulo di errori nella generazione video.

[6] Gao, J. et al. (2024). “LongVie 2: Multimodal Controllable Ultra-Long Video World Model”. arXiv:2512.13604. — Paper originale, 18 dicembre 2025.

[7] Bernardini, A. (1980). Cinema muto italiano. Laterza. — Include la storia di Filoteo Alberini e i pionieri italiani.


Read Next:


Leave a comment


Benvenuto su Salahzar.com

Qui trovi analisi critiche sull’intelligenza artificiale e le sue implicazioni sociali, scritte da chi viene da una impostazione umanistica e ha passato vent’anni a costruire mondi virtuali prima che diventassero “metaverso”.

Niente hype da Silicon Valley o entusiasmi acritici: sul tavolo ci sono le contraddizioni dell’innovazione tecnologica, i suoi miti fondativi, le narrazioni che usiamo per darle senso. Dai diari ucronici (storie alternative come strumento per capire i nostri bias cognitivi) alle newsletter settimanali sugli sviluppi dell’AI che richiedono aggiornamenti continui perché i trimestri sono già preistoria.

Se cerchi guide su come “fare soldi con ChatGPT” o liste di prompt miracolosi, sei nel posto sbagliato. Se invece ti interessa capire cosa sta succedendo davvero – tra hype, opportunità concrete e derive distopiche – sei nel posto giusto.

Umanesimo digitale senza retorica, analisi senza paternalismi, ironia senza cinismo.


Join the Club

Stay updated with our latest tips and other news by joining our newsletter.