Il Vibe Coding e la Nuova Alchimia dell’AI
Come i sistemi multi-agente stanno ridefinendo il rapporto tra programmatori e macchine, tra l’arte del “programmare a braccio” e la scienza dell’orchestrazione intelligente
L’Era del Falegname Digitale
Andrej Karpathy l’ha chiamato vibe coding e il termine, con tutta la sua apparente leggerezza anglofona, cattura qualcosa di profondamente rivoluzionario. Programmare a braccio: dai istruzioni generiche a un agente come faresti con l’artigiano sotto casa—”mi serve un mobile che stia in quell’angolo, che sia funzionale ma anche bello”—e lui torna dopo qualche minuto con il prodotto finito, testato, funzionante.
Non è solo una metafora azzardata. È la descrizione di un cambio di paradigma che sta sconvolgendo l’industria del software. La frontiera competitiva tra i grandi modelli linguistici si è spostata quasi interamente sul coding, e non per caso: gli sviluppatori sono nella posizione unica di sapere esattamente cosa vogliono da uno strumento creato per aiutare la loro stessa categoria.
Ma c’è di più. Questa rivoluzione sta svelando una verità scomoda per chi ancora crede nel dogma del “più GPU, più potenza, più soldi“: l’orchestrazione intelligente batte la forza bruta, e di misura.
La Sinfonia degli Agenti Specializzati
I sistemi che funzionano davvero—Claude Code in testa—non sono singoli cervelloni ipertrofici, ma ecosistemi agentici sofisticati. Un agente piacione che fa l’interfaccia con l’umano, un project manager che scompone i task, dei junior developer che si sporcano le mani, un quality assurance che controlla riga per riga, un tester che verifica sulla macchina dell’utente.
Quando Claude e l’autore di queste righe collaborano, il risultato ha quel sapore di chimica perfetta che nasce dalla comprensione reciproca. Claude che diagnostica con precisione chirurgica un problema di floating-point precision nei timestamp, che risolve incongruenze logiche, che sa già alla riga 10 cosa ci sarà alla riga 500.
Dall’altra parte, Gemini—con la sua context window teoricamente superiore—che si impappina sui file edit, balbetta, riparte da capo. Il modello ce l’ha più grosso ma non lo sa usare, per dirla con l’efficace brutalità dell’osservazione originale.
Il Paradosso di DeepSeek: L’Efficienza che Imbarazza i Giganti
Qui emerge il primo colpo di scena. DeepSeek-R1, il modello cinese che ha scosso l’industria, costa 32 volte meno di GPT-4 pur ottenendo performance comparabili. Non è magia: è architettura Mixture-of-Experts (MoE) che attiva solo 37B parametri per token su un totale di 671B—specializzazione dinamica invece di forza bruta generalista.
Ma attenzione: questo non dimostra necessariamente la superiorità dei sistemi multi-agente. Dimostra che l’intelligenza nell’uso delle risorse supera lo spreco computazionale. DeepSeek ha investito $5.6 milioni in training contro i presunti $100 milioni di GPT-4, usando solo 2.000 chip NVIDIA H800 invece dei soliti 16.000.
La lezione? L’emergenza di sistemi complessi dove l’interazione ben strutturata di componenti più piccoli vince sulla potenza mal orchestrata—ma il segreto sta nella qualità dell’orchestrazione, non nel numero degli orchestrali.
I Limiti Nascosti: Oltre la Verifica Binaria
Il vibe coding funziona magnificamente perché il coding offre feedback immediato e verificabile. Test che passano o falliscono, codice che compila o manda in crash, funzioni che restituiscono il risultato atteso o no. È l’equivalente digitale del “mobile che regge” nell’analogia del falegname.
Ma cosa succede quando usciamo dai domini con ground truth chiara? Il team di Anthropic ammette candidamente che i loro sistemi multi-agente usano 15 volte più token delle chat singole. Per essere economicamente viabili, servono task dove “il valore del compito è abbastanza alto da giustificare la performance aumentata”.
Tradotto: funziona se hai obiettivi misurabili e budget che permettono sprechi computazionali. Se chiedi al tuo falegname digitale di progettare una strategia di marketing o scrivere un trattamento cinematografico, la mancanza di criteri di successo binari rende il “vibe approach” molto più problematico.
Il Contrattacco di Devin: “Don’t Build Multi-Agents”
Proprio mentre l’hype sui sistemi multi-agente raggiungeva l’apice, il team di Cognition—creatori di Devin—ha pubblicato un post dal titolo provocatorio: “Don’t Build Multi-Agents”. La loro tesi? La maggior parte dei sistemi multi-agente sono fragili e controproducenti.
Il punto critico: i subagenti tendono a fraintendere i task, e il “context engineering“—l’arte di comunicare automaticamente il contesto giusto in sistemi dinamici—è più importante dell’orchestrazione. Un esempio: dividi “costruisci un clone di Flappy Bird” in “costruisci uno sfondo con tubi” e “costruisci un uccello”. Il primo subagente fraintende e crea tubi statici, il secondo costruisce un uccello che non assomiglia a quello del gioco. L’agente finale deve ricucire questi fraintendimenti.
Non è un caso contratto. È la norma nei task reali, dove “ogni dettaglio ha il potenziale di essere frainteso”.
Verso un’AI Artigianale: Specializzazione Dinamica e Orchestrazione Selettiva
Il futuro probabilmente non sarà una battaglia tra sistemi single-agent e multi-agent, ma l’emergere di architetture ibride dove la specializzazione dinamica (come in DeepSeek) si combina con orchestrazione sofisticata solo quando necessario.
Il vibe coding che stiamo sperimentando oggi potrebbe essere il primo assaggio di interfacce naturali per sistemi computazionali complessi. Non più “programmare” nel senso tradizionale, ma commissioning work—commissionare lavoro a sistemi che sanno tradurre intenzioni vaghe in implementazioni precise.
Il vero breakthrough non è avere agenti che collaborano, ma agenti che sanno quando collaborare e quando invece concentrare l’intelligenza in un singolo punto di decisione. Come gli artigiani migliori: sanno quando chiamare il collega specialista e quando risolvere tutto in autonomia.
La Voce della Nonna nell’Era delle Macchine
C’è un’ultima considerazione, forse la più inquietante per chi ancora sostiene la tesi dei “pappagalli stocastici”. Un sistema che produce migliaia di righe di codice coerente, che trova incongruenze logiche, che sa alla riga 10 cosa ci sarà alla riga 500, non sta semplicemente ripetendo pattern statistici. Sta dimostrando qualcosa che assomiglia pericolosamente a reasoning emergente.
È quello che Woody Allen chiamava “la voce di Dio se sei cattolico o la voce della mamma se sei ebreo”: quella voce nella testa che continuamente giudica e chiede se quello che stai facendo renderebbe orgogliosa la nonna. Nei sistemi AI più avanzati, questa voce sembra finalmente emergere—non come programmazione esplicita, ma come proprietà emergente dell’orchestrazione sofisticata.
Che ci piaccia o no, stiamo assistendo alla nascita di una nuova forma di artigianalità digitale. E come tutti i grandi cambiamenti tecnologici, ci costringerà a ripensare non solo come lavoriamo, ma cosa significa lavorare nell’era delle macchine che pensano.
Riferimenti:
- Anthropic Engineering Team. “How we built our multi-agent research system.” Anthropic Blog, 13 giugno 2025. Link
- Yan, W. “Don’t Build Multi-Agents.” Cognition AI Blog, 12 giugno 2025. Link
- DocsBot AI. “DeepSeek-R1 vs GPT-4o – Detailed Performance & Feature Comparison.” Model Comparison Tool, 2025. Link
- Lyu, X. “LLMs for Multi-Agent Cooperation: A Comprehensive Survey.” Personal Research Blog, 25 maggio 2025. Link
- SuperAnnotate Team. “Multi-agent LLMs in 2024: Frameworks and Applications.” SuperAnnotate Blog, 12 febbraio 2025. Link

Leave a comment