Articoli
Articolo

Come Ragiona un LLM

Il funzionamento dell'Intelligenza Artificiale generativa spiegato visivamente — dalla scomposizione del testo alla generazione della risposta.

12 min 2026 Riccardo Busolo
In breve

Un Large Language Model non "pensa" come un essere umano. Scompone il testo in frammenti chiamati token, li trasforma in coordinate numeriche (embeddings), usa un meccanismo chiamato attention per capire le relazioni tra le parole, e genera la risposta prevedendo un token alla volta. In questo articolo ti mostro visivamente ogni passaggio.

In questo articolo
  1. Parli con un'AI ogni giorno. Ma sai come funziona?
  2. Tokenizzazione — Il testo diventa numeri
  3. Embeddings — Le parole nello spazio
  4. Attention — Il meccanismo che capisce il contesto
  5. Il Transformer — L'architettura che ha cambiato tutto
  6. Come genera il testo, token per token
  7. Limiti, rischi e responsabilità

Parli con un'AI ogni giorno. Ma sai come funziona?

Ogni volta che chiedi a un modello AI di scriverti un'email, spiegarti un concetto o riassumere un documento, stai interagendo con un Large Language Model — un sistema addestrato su miliardi di testi che sembra comprendere e ragionare.

La parola chiave è sembra. Un LLM non capisce nel senso umano del termine. Non ha coscienza, non ha esperienze, non ha opinioni. Ciò che fa è matematicamente sofisticato, eppure il principio di base è sorprendentemente semplice: prevede il frammento di testo successivo più probabile.

Capire come funziona non è un esercizio accademico. È il primo passo per usare questi strumenti in modo efficace e responsabile — sapendo cosa possono fare, perché a volte sbagliano, e dove sta il confine tra la macchina e il tuo giudizio.


Tokenizzazione — Il testo diventa numeri

Un computer non lavora con le parole. Lavora con numeri. Il primo passaggio è trasformare il tuo messaggio in una sequenza di frammenti numerici chiamati token.

Un token non corrisponde sempre a una parola intera. Può essere una parola, una sotto-parola, o anche un singolo carattere. Il modello usa un vocabolario di circa 50.000–100.000 frammenti, ognuno associato a un ID numerico univoco.

Infografica — Tokenizzazione in azione
"L'intelligenza artificiale sta cambiando il mondo"
L' intelli genza artific iale sta cambiando il mondo
ID 445 ID 12847 ID 8923 ID 31205 ID 2190 ID 678 ID 44521 ID 9034
Nota come "intelligenza" e "artificiale" vengono spezzati in sotto-parole. Gli ID sono indicativi.
Perché le sotto-parole?

Un vocabolario di parole intere sarebbe enorme e non coprirebbe mai tutti i termini possibili. Usando sotto-parole, il modello può gestire qualsiasi parola — anche quelle mai viste — combinando frammenti noti. È lo stesso principio per cui capisci "dis-organizzato" anche senza averlo mai letto prima.


Embeddings — Le parole nello spazio

Ogni token numerico viene ora trasformato in un vettore — una lista di centinaia di numeri che rappresenta il "significato" del token in uno spazio matematico multidimensionale.

La proprietà fondamentale: parole con significati simili finiscono vicine in questo spazio. Non perché qualcuno le abbia posizionate manualmente, ma perché il modello ha scoperto queste relazioni leggendo miliardi di testi durante l'addestramento.

Infografica — Spazio degli embeddings (semplificato in 2D)
Dimensione 1
Dimensione 2
pizza
pasta
risotto
gatto
cane
leone
auto
moto
treno
felicità
tristezza
CiboAnimaliVeicoliEmozioni

Nella realtà, ogni vettore ha migliaia di dimensioni — non due. Ogni dimensione cattura un aspetto diverso del significato: genere, tempo verbale, formalità, ambito semantico e centinaia di altre caratteristiche che il modello ha scoperto autonomamente.

L'aritmetica delle parole

Uno degli aspetti più sorprendenti: gli embeddings supportano operazioni matematiche. Il vettore di re meno uomo più donna produce un vettore vicinissimo a regina. Il modello ha codificato relazioni semantiche come operazioni geometriche.


Attention — Il meccanismo che capisce il contesto

Ecco il cuore di un LLM. Il meccanismo di attention permette al modello di analizzare tutte le parole della frase contemporaneamente e calcolare quanto ogni parola sia rilevante per ogni altra.

Quando leggi "La mela è caduta dall'albero perché era matura", il tuo cervello capisce che "matura" si riferisce alla mela. L'attention fa qualcosa di analogo: assegna un peso a ogni coppia di parole nel contesto specifico.

Nell'infografica qui sotto, seleziona una parola per vedere a quali altre parole il modello presta attenzione quando la elabora. La lunghezza della barra indica l'intensità dell'attenzione.

Infografica interattiva — Mappa di Attention
Seleziona una parola per vedere dove va la sua attenzione:

Self-Attention e gli Attention Head

Un LLM non ha un solo meccanismo di attention ma decine in parallelo, chiamati attention head. Ogni head impara a catturare un tipo diverso di relazione: grammaticale, semantica, di prossimità, di co-referimento.

Il calcolo avviene attraverso tre trasformazioni: Query ("cosa sto cercando?"), Key ("cosa ho da offrire?") e Value ("il mio contenuto informativo"). Il prodotto tra Query e Key determina i pesi di attention; il Value viene poi pesato di conseguenza.


Il Transformer — L'architettura che ha cambiato tutto

Il Transformer è l'architettura pubblicata nel 2017 nel paper "Attention Is All You Need". È la struttura alla base di tutti i moderni LLM — GPT, Claude, Gemini, LLaMA, Mistral.

L'idea rivoluzionaria: eliminare le reti ricorrenti (che processavano le parole una alla volta) e usare solo il meccanismo di attention, permettendo di processare tutte le parole in parallelo. Questo ha reso possibile addestrare modelli enormi su quantità di dati impensabili prima.

Diagramma — Architettura semplificata del Transformer
📝 Input: sequenza di token
Embeddings + Positional Encoding
Ogni token diventa un vettore. La posizione nella frase viene codificata.
× N layer (es. 32–96 nei modelli più grandi)
Multi-Head Self-Attention
Ogni token guarda tutti gli altri e calcola i pesi di rilevanza.
Feed-Forward Network
Elabora le informazioni raccolte. È qui che il modello "ragiona".
↑ ripeti per ogni layer
🎯 Probabilità per ogni token del vocabolario
Il modello assegna una probabilità a ciascuno dei ~100.000 token possibili.
La scala dei numeri

I "parametri" di un modello sono i pesi numerici nelle sue matrici. GPT-3 ne ha 175 miliardi. I modelli di frontiera attuali ne hanno centinaia di miliardi o più. Ogni singolo parametro è stato calibrato durante un addestramento che ha richiesto mesi su migliaia di GPU — con costi nell'ordine delle decine di milioni di dollari.


Come genera il testo, token per token

Quando un LLM scrive una risposta, non la produce tutta insieme. Genera un token alla volta. Ad ogni passo prende tutto il testo precedente, lo processa attraverso tutti i layer del Transformer, e produce una distribuzione di probabilità sul prossimo token.

Un parametro chiamato temperatura controlla la casualità della scelta. Temperatura bassa = risposte prevedibili e precise. Temperatura alta = risposte creative ma più rischiose.

Infografica interattiva — Generazione token per token

Questo si ripete centinaia o migliaia di volte per una risposta completa. Quando vedi il testo apparire in streaming, non è un effetto estetico — è il modello che decide letteralmente una parola alla volta.


Limiti, rischi e responsabilità

Comprendere come funziona un LLM è comprendere perché sbaglia. Non ha memoria persistente tra le conversazioni, non accede a internet autonomamente (a meno di strumenti specifici), non "sa" nel senso umano. Predice la sequenza più probabile.

Allucinazioni

Un LLM può generare informazioni false con assoluta sicurezza. Non "inventa" consapevolmente — produce la sequenza che statisticamente suona più plausibile, anche quando è sbagliata. Il termine tecnico è "allucinazione" ed è uno dei problemi aperti più importanti della ricerca AI.

Bias

I dati di addestramento sono testi scritti da esseri umani, con tutti i loro pregiudizi. Il modello li assorbe e li riproduce. Le aziende che sviluppano LLM investono enormi risorse per mitigarli, ma eliminarli completamente è una sfida aperta.

Ragionamento

Un LLM può simulare catene logiche impressionanti, ma non "comprende" la causa e l'effetto come noi. Può risolvere un problema matematico e fallire in uno simile con numeri diversi. Il ragionamento emerge dalle correlazioni statistiche, non da una comprensione profonda.

Niente di tutto questo rende gli LLM meno utili. Li rende strumenti che richiedono consapevolezza. Verificare, mantenere il pensiero critico, non delegare decisioni importanti senza supervisione umana: non è solo buona pratica, è responsabilità di chi usa la tecnologia.

Vuoi portare queste competenze nel tuo team?
Nei miei percorsi di formazione insegno a usare l'AI in modo consapevole e strategico — dalla teoria alla pratica operativa quotidiana.
Parliamone →