Quando l’AI diventa tascabile (e interessante)

Ovvero: come Google sta provando a convincerci che il futuro dell’intelligenza artificiale non passa dai data center, ma dal telefono che usi per scorrere Instagram mentre fingi di lavorare

C’è qualcosa di deliziosamente ironico nel vedere Google – l’azienda che ha costruito un impero su server farm grandi quanto quartieri interi – rilasciare un’app che fa girare modelli AI completamente offline, senza toccare un singolo byte di cloud. È come vedere Ferrari annunciare una citycar elettrica: tecnicamente ha senso, ma bisogna ammettere che c’è una certa dose di “momento, ma non eravate voi quelli che…?”

Benvenuti nel mondo di Google AI Edge Gallery, l’esperimento più interessante che Google ha rilasciato quest’anno e di cui probabilmente non avete mai sentito parlare. Perché? Perché invece di fare la solita presentazione con palloncini e aggettivi come “rivoluzionario”, l’hanno semplicemente messo su GitHub come si butta una bottiglia in mare, con un messaggio che dice sostanzialmente: “Ecco, fateci sapere se funziona”.

L’app che non dovrebbe esistere (ma esiste)

Partiamo dai fatti: AI Edge Gallery è un’app Android (iOS in arrivo, quindi aspettiamo con fiducia) che ti permette di scaricare modelli di linguaggio grandi come un film in HD e farli girare sul tuo telefono. Completamente offline. Senza cloud. Senza mandare i tuoi dati a Mountain View.

La trovate sul Play Store da settembre 2025, ma per i primi mesi viveva solo su GitHub, come quelle band indie che si rifiutano di firmare con grandi etichette per principio. Il risultato? 500.000 download in due mesi, che per un’app distribuita principalmente via APK manuale è l’equivalente di riempire San Siro senza pubblicità. Non male per un “esperimento”.

Installazione: un corso accelerato di pazienza zen

Ora, una delle cose più esilaranti di Edge Gallery è il processo di installazione iniziale. Prima che arrivasse sul Play Store, per farla funzionare dovevi:

Scaricare l’APK da GitHub (già qui perdi il 70% degli utenti normali)
Attivare la modalità sviluppatore su Android (altri 20% se ne vanno)
Creare un account su Hugging Face (chi?)
Accettare termini e condizioni su tre piattaforme diverse: l’app stessa, Hugging Face, e il modulo “Google Gemma Access Request”
Navigare avanti e indietro tra browser e app come se stessi giocando a una caccia al tesoro progettata da Kafka

Un recensore di Android Authority ha sintetizzato l’esperienza così: aveva emesso più di un sospiro esasperato durante il processo, e non avrebbe biasimato nessuno che avesse preferito pulire tutte le proprie scarpe piuttosto che continuare. E aveva ragione. Pulire le scarpe è obiettivamente più gratificante.

Ma – e qui sta il colpo di scena – dal momento in cui l’hanno messa sul Play Store, l’esperienza è migliorata del 300%. Ora scarichi, accetti due termini invece di sei, e sei operativo. Google ha imparato che anche i primi utilizzatori hanno un limite al masochismo.

Cosa ci fai, praticamente?

L’app offre quattro modalità d’uso, tutte con nomi che suonano come caratteristiche di un iPhone del 2030:

1. AI Chat: la classica

Conversazioni con un LLM, stile ChatGPT ma che gira nel tuo telefono. Ho fatto qualche test: per domande semplici (tipo “dammi idee per cena”) funziona bene. Per cose più complesse… beh, diciamo che il modello da 4 miliardi di parametri non è esattamente GPT-4.

Un tester ha chiesto suggerimenti per un viaggio in Spagna: risposta decente, ma ci ha messo 3 minuti. Tre. Minuti. Per una risposta che ChatGPT ti spara in 5 secondi. È il prezzo dell’offline, ma se sei in aereo senza WiFi improvvisamente quei 3 minuti diventano accettabili.

2. Ask Image: riconoscimento visivo con riserva

Carichi una foto e chiedi al modello cosa vede. In teoria. In pratica:

Cibo e hardware comune? Va bene.
Fiori specifici o personaggi anime? “Uhhh… è una cosa?”
Un iPhone 13 Pro? “È un iPhone 13” (ha sbagliato il modello, ma almeno l’hanno riconosciuto come iPhone)

Il divario tra il marketing e la realtà è quello classico dell’AI: quando funziona è magia, quando sbaglia è comicamente specifico nell’errore.

3. Prompt Lab: operazioni singole

Riassumi questo testo, riscrivi in tono entusiasta, genera codice. Qui il modello si comporta sorprendentemente bene, probabilmente perché sono compiti più strutturati. Ho provato a fargli riassumere l’intro della pagina Wikipedia sulla Relatività: cinque punti precisi in pochi secondi.

Per documenti che non vuoi far vedere a ChatGPT (contratti, note personali, quella fanfiction che stai scrivendo) è perfetto.

4. Audio Scribe: novità di settembre

Trascrizione audio e traduzione. Non l’ho ancora testato estensivamente, ma il fatto che Google abbia aggiunto supporto audio nativo su Gemma 3n è significativo: vuol dire che stanno prendendo sul serio la multimodalità su dispositivo.

I modelli: Gemma 3n e l’architettura delle bambole russe

Sotto il cofano, l’app usa principalmente i modelli Gemma 3n, l’ultimo nato della famiglia Gemma di Google. E qui diventa tecnicamente interessante.

Gemma 3n usa un’architettura chiamata MatFormer (Matryoshka Transformer), che è fondamentalmente il Tetris applicato ai transformer. L’idea? Un modello grande contiene versioni più piccole completamente funzionali di se stesso, come bambole russe.

Il trucco geniale: il modello si adatta elasticamente alla capacità del dispositivo. Se hai un telefono top di gamma, usa la versione piena. Se hai un dispositivo di fascia media del 2022, scala automaticamente. Il risultato:

Gemma 3n-5B consuma memoria come un modello 2B tradizionale
Gemma 3n-8B consuma come un 4B
Con quantizzazione int4, riduci ulteriormente di 2.5-4x la dimensione

Traduzione: modelli che prima richiedevano 16GB di RAM ora girano con 4GB. Ed è per questo che puoi avere un LLM multimodale sul telefono senza che diventi un mattone caldo.

Prestazioni reali: dipende (molto)

Le prestazioni variano in modo drammatico:

Su hardware di punta (Pixel 8 Pro, Samsung S23+):

Gemma 3 genera fino a 2.585 token al secondo su GPU mobile
Latenza accettabile anche per conversazioni a più turni
Consumo batteria non trascurabile ma gestibile

Su hardware di fascia media:

Velocità dimezzata o peggio
Meglio usare CPU invece di GPU (su alcuni processori la GPU è più lenta)
Per sessioni lunghe il telefono diventa un forno

L’errore che nessuno si aspettava: su chipset Dimensity 9400, l’inferenza su GPU va a 1 token al secondo, mentre su CPU fa 6.5 token al secondo. Significa che l’ottimizzazione GPU non è ancora matura su tutti i processori – un promemoria che l’intelligenza artificiale su dispositivo è ancora un territorio da esplorare.

Il vero gioco: non sono i modelli, è l’ecosistema

Qui bisogna fare un passo indietro e guardare la strategia complessiva. Google AI Edge Gallery non compete con ChatGPT o Gemini (anche se il nome è volutamente confuso). Compete con l’ecosistema di inferenza su dispositivo che già esiste:

llama.cpp: il veterano, ottimizzato per CPU, velocissimo, ma solo a riga di comando
MLC LLM: ottimizzato per GPU via TVM, prestazioni superiori quando funziona
Ollama: perfetto per distribuzione server-side, con API compatibile OpenAI
LM Studio: interfaccia bellissima su Mac, motore MLX ottimizzato per Apple Silicon

Edge Gallery non è il più veloce. Non è il più flessibile. Ma è:

Accessibile: interfaccia pulita, zero configurazione tecnica (da settembre 2025)
Multimodale pronto all’uso: testo, immagini, audio senza configurazioni
Open source: Apache 2.0, codice su GitHub
Integrato: collegato direttamente alla comunità Hugging Face LiteRT

In altre parole, è come Visual Studio Code per l’intelligenza artificiale su dispositivo: non necessariamente il migliore in tutto, ma quello che abbassa la barriera d’ingresso e ti fa iniziare in 5 minuti.

La mossa da scacchi di Google

VentureBeat l’ha capita: Google rende open source i suoi strumenti perché ritiene che controllare l’infrastruttura AI di domani sia più importante che possedere i data center di oggi.

Traduzione: Google sta provando a fare con LiteRT/MediaPipe quello che ha fatto con TensorFlow. Non vogliono che tu compri i loro modelli – vogliono che usi il loro stack per distribuire qualsiasi modello. Se tra 3 anni tutti gli sviluppatori usano LiteRT come runtime standard per l’AI su dispositivo, Google ha vinto, anche se i modelli che girano sopra sono di altri.

È una strategia brillante perché:

Costa poco (tutto open source, guidato dalla comunità)
Non compete direttamente con Gemini (sono casi d’uso diversi)
Posiziona Google come “democratizzatore” dell’AI invece che guardiano
Crea dipendenza dall’infrastruttura, non dai modelli

Quando ha senso usarlo (e quando no)

👍 Scenari vincenti:

Privacy critica: documenti legali, dati medici, qualsiasi cosa non vuoi mandare su server esterni
Offline per necessità: aerei, treni, zone remote, paesi con censura internet
Latenza zero: per app che devono rispondere immediatamente
Costi: zero chiamate API, zero abbonamenti – il costo è nel dispositivo, non nell’uso
Ricerca e sviluppo: testare cosa funziona su dispositivo prima di impegnarsi in un’architettura

👎 Scenari “meglio di no”:

Compiti complessi che richiedono ragionamento profondo (usa GPT-4/Claude)
Informazioni in tempo reale o che richiedono ricerca web
Quando hai bisogno di coerenza al 100% nelle risposte
Hardware vecchio o entry-level (sarà frustrante)
App di produzione dove l’utente si aspetta esperienza simile a ChatGPT

Il futuro: più interessante del presente

La tabella di marcia è ambiziosa:

Versione iOS (finalmente)
RAG su dispositivo: connettere documenti locali senza ottimizzazione fine
Chiamate a funzioni: automazione locale tipo “compila questo modulo”
Migrazione a LiteRT-LM: runtime completamente open source (abbandonando MediaPipe)
Più modelli: apertura completa alla comunità LiteRT su Hugging Face

Se mantengono le promesse, tra un anno Edge Gallery potrebbe essere il punto di riferimento per prototipare app che mettono il dispositivo al centro. Il condizionale è d’obbligo perché, diciamolo, Google ha una certa tendenza a lanciare progetti sperimentali e poi abbandonarli come cuccioli davanti a un canile.

Verdetto: esperimento riuscito, prodotto in evoluzione

Google AI Edge Gallery è una validissima dimostrazione pratica che diventa sempre più prodotto reale. Non sostituisce ChatGPT e non vuole farlo. Ma dimostra che:

L’AI su dispositivo è fattibile anche su hardware consumer, non solo su workstation da 5000€
La privacy può essere una caratteristica, non solo un obbligo normativo
L’ecosistema open source intorno all’AI su dispositivo è vivo e cresce velocemente
Google sta giocando sul lungo termine, e questa potrebbe essere una mossa molto astuta

Se lavori su machine learning e AI, scaricala e provala. Non per usarla in produzione domani, ma per capire dove stanno i veri limiti (spoiler: non sempre dove pensi) e quali compromessi sono accettabili nei tuoi casi d’uso.

E se non lavori su ML/AI ma ti piace smanettare con roba nuova, beh… è gratis, open source, e ti fa sentire come se stessi usando tecnologia dal futuro, anche se quel futuro è ancora un po’ grezzo.

Che poi è esattamente come ci piace la tecnologia: promettente, imperfetta, e con ancora abbastanza imperfezioni da tenerci svegli la notte a sistemare problemi.

Link utili:

Testato su: Pixel 8, circa 40 ore di smanettamento, e un numero imbarazzante di “ma perché questa cosa…?” seguiti da sessioni di lettura delle segnalazioni su GitHub.

Leave a comment Cancel reply

Join the Club

Categorie

Tag