Floating point

IA - L'autostrada dell'informazione

Denis Dal Molin
08 Jan, 2026
04 Mins read

Quando parliamo di modelli di intelligenza artificiale sempre più grandi, tendiamo a concentrarci su numeri "facili" da raccontare: parametri, token, FLOPS, dimensioni del dataset.

Ma la domanda che ha bloccato, e poi sbloccato, la scalabilità tecnologica è stata: come facciamo a far viaggiare l’informazione attraverso reti sempre più profonde senza perderla o distruggerla lungo il percorso?

Per capirlo, è utile immaginare una rete neurale come un sistema autostradale. Se le strade sono progettate bene, il traffico può crescere senza collassare. Se sono progettate male, basta aumentare il flusso per creare ingorghi, incidenti o blocchi totali.

Quando "più profondo" significa "peggiore"

L’intuizione iniziale: se una rete neurale funziona, aggiungiamo più strati e funzionerà meglio.

In pratica però succedeva spesso l’opposto.

Reti più profonde:

non miglioravano le performance
convergevano più lentamente
oppure smettevano proprio di imparare

Il problema non era la mancanza di dati o di potenza computazionale. ma il segnale.

Durante l’addestramento, l’informazione percorre due direzioni:

in avanti, quando l’input attraversa gli strati fino a produrre un output
all’indietro, quando il gradiente della perdita viene propagato per aggiornare i parametri del modello

Con reti poco profonde questo meccanismo funziona, ma aumentando gli strati il gradiente tende a diventare sempre più piccolo (vanishing gradient) fino a scomparire del tutto.

Loss e Gradiente

Prima di entrare nel dettaglio vale la pena fermarsi un attimo su due concetti fondamentali che spesso vengono dati per scontati. Ogni modello di Intelligenza Artificiale, per quanto sofisticato, impara sempre nello stesso modo: commettendo errori e cercando di ridurli.

La loss function è la misura numerica di questo errore, una funzione che confronta:

ciò che il modello ha prodotto in output
con ciò che avrebbe dovuto produrre

Più la loss è alta più il modello sta sbagliando, più è bassa più il modello si sta avvicinando al comportamento desiderato. Ma sapere quanto stiamo sbagliando non basta. Serve capire come correggersi e qui entra in gioco il gradiente.

1.00

Il gradiente è, in sostanza, il segnale di correzione e indica:

in quale direzione modificare i parametri del modello
e di quanto farlo per ridurre la loss

Durante l’addestramento:

l’input attraversa la rete in avanti (feed-forward) fino a produrre un output
viene calcolata la loss
il gradiente di quella loss viene propagato all’indietro, layer dopo layer, aggiornando i pesi

1.00

Questo processo si chiama backpropagation.

ResNet

Il vero punto di svolta arriva nel 2016 con l’introduzione delle Residual Networks (ResNet).

1.00

L’idea è molto semplice: invece di forzare ogni strato a trasformare completamente l’input, permettiamogli di saltare alcuni blocchi e propagarsi direttamente in avanti.

Formalmente l’input xxx non viene solo trasformato da una funzione F(x)F(x)F(x) ma viene anche aggiunto direttamente all’output. Questo crea una mappatura identitaria: un percorso garantito attraverso cui l’informazione può fluire senza essere distorta.

1.00

Dal punto di vista dell’autostrada non è più una sequenza di strade secondarie ma una corsia preferenziale sempre aperta.

Il risultato è:

i gradienti riescono a propagarsi anche in reti molto profonde
l’addestramento diventa stabile
“più profondo” torna ad avere senso

Il limite delle connessioni residue

Le residual connections funzionano, ma hanno un limite strutturale: sono un singolo percorso.

Quando i modelli iniziano a crescere, una sola corsia non è più sufficiente per gestire:

la complessità delle rappresentazioni
la quantità di informazione che deve fluire
la necessità di maggiore espressività

Da qui nasce, più recentemente, il concetto di hyper-connections (HC). Invece di un unico flusso di dimensione CCC, l’informazione viene suddivisa in più flussi paralleli (tipicamente n=4n = 4n=4).

1.00

L’autostrada diventa più larga, con più corsie che viaggiano in parallelo.

1.00

Ma si introduce un altro problema, moltiplicare i percorsi senza regole chiare porta a un effetto collaterale di instabilità.

Con più flussi che interagiscono:

piccoli cambiamenti in un layer iniziano a sommarsi
i gradienti possono crescere invece di attenuarsi
il modello “disimpara” invece di imparare

È il fenomeno opposto al vanishing gradient: gradient explosion.

In termini di autostrade:

non ci sono più corsie ben delimitate
il traffico si incrocia senza regole
gli incidenti diventano inevitabili

Non è l’idea delle hyper-connections in sé, ma l’assenza di vincoli strutturali.

Autostrade vincolate matematicamente (mHC)

La soluzione più recente è elegante perché non aggiunge complessità inutile: aggiunge regole.

Nel 2025 vengono introdotte hyper-connections vincolate da una struttura matematica precisa: le matrici doppiamente stocastiche, mappate su un politopo di Birkhoff.

1.00

La mappatura residua viene vincolata in modo che:

tutte le voci siano non negative (nessuna cancellazione del segnale)
ogni riga sommi a 1 (la potenza del segnale in avanti è conservata)
ogni colonna sommi a 1 (anche il gradiente all’indietro è conservato)

Il risultato:

la stabilità è garantita a qualsiasi profondità
moltiplicare queste matrici produce ancora matrici stabili
il flusso informativo resta sotto controllo

Per ottenere tutto questo nella pratica, si utilizza l’algoritmo Sinkhorn-Knopp (1967), che normalizza iterativamente righe e colonne fino alla convergenza.

1.00

Dopo una ventina di iterazioni, otteniamo un’autostrada a molte corsie dove:

il traffico è regolato
non ci sono ingorghi
l’informazione fluisce senza degradarsi

La parte più interessante è che le performance migliorano anche a parità di tutto il resto:

stessi dati
stesso numero di parametri
stessa architettura di alto livello

1.00

Ovviamente ci sono dei costi:

maggiore utilizzo di memoria (VRAM)
maggiore spesa computazionale

Ma con ottimizzazioni di basso livello – come la riscrittura dei kernel GPU e l’adozione di strategie di scheduling come il dual-pipe – l’overhead può essere contenuto (circa +6% di computazione).

E soprattutto: il vantaggio cresce con la scala. Più il modello è grande, più questi accorgimenti diventano determinanti.

Una lezione più ampia sulla scalabilità

Questa evoluzione ci lascia una lezione che va oltre il singolo paper o la singola architettura:

Scalare l’Intelligenza Artificiale non significa solo aggiungere parametri, ma progettare sistemi in cui l’informazione possa muoversi in modo stabile, controllato e prevedibile.

È una lezione valida tanto per chi costruisce modelli fondamentali, quanto per chi lavora su piattaforme cloud, infrastrutture distribuite o sistemi complessi in generale.

Prima di chiederci quanto** grande può diventare un modello, dovremmo sempre chiederci:
quanto bene è progettata la sua autostrada interna dell’informazione.

Ed è spesso lì che si gioca la vera partita.