Come Ragiona un LLM
Il funzionamento dell'Intelligenza Artificiale generativa spiegato visivamente — dalla scomposizione del testo alla generazione della risposta.
Un Large Language Model non "pensa" come un essere umano. Scompone il testo in frammenti chiamati token, li trasforma in coordinate numeriche (embeddings), usa un meccanismo chiamato attention per capire le relazioni tra le parole, e genera la risposta prevedendo un token alla volta. In questo articolo ti mostro visivamente ogni passaggio.
- Parli con un'AI ogni giorno. Ma sai come funziona?
- Tokenizzazione — Il testo diventa numeri
- Embeddings — Le parole nello spazio
- Attention — Il meccanismo che capisce il contesto
- Il Transformer — L'architettura che ha cambiato tutto
- Come genera il testo, token per token
- Limiti, rischi e responsabilità
Parli con un'AI ogni giorno. Ma sai come funziona?
Ogni volta che chiedi a un modello AI di scriverti un'email, spiegarti un concetto o riassumere un documento, stai interagendo con un Large Language Model — un sistema addestrato su miliardi di testi che sembra comprendere e ragionare.
La parola chiave è sembra. Un LLM non capisce nel senso umano del termine. Non ha coscienza, non ha esperienze, non ha opinioni. Ciò che fa è matematicamente sofisticato, eppure il principio di base è sorprendentemente semplice: prevede il frammento di testo successivo più probabile.
Capire come funziona non è un esercizio accademico. È il primo passo per usare questi strumenti in modo efficace e responsabile — sapendo cosa possono fare, perché a volte sbagliano, e dove sta il confine tra la macchina e il tuo giudizio.
Tokenizzazione — Il testo diventa numeri
Un computer non lavora con le parole. Lavora con numeri. Il primo passaggio è trasformare il tuo messaggio in una sequenza di frammenti numerici chiamati token.
Un token non corrisponde sempre a una parola intera. Può essere una parola, una sotto-parola, o anche un singolo carattere. Il modello usa un vocabolario di circa 50.000–100.000 frammenti, ognuno associato a un ID numerico univoco.
Un vocabolario di parole intere sarebbe enorme e non coprirebbe mai tutti i termini possibili. Usando sotto-parole, il modello può gestire qualsiasi parola — anche quelle mai viste — combinando frammenti noti. È lo stesso principio per cui capisci "dis-organizzato" anche senza averlo mai letto prima.
Embeddings — Le parole nello spazio
Ogni token numerico viene ora trasformato in un vettore — una lista di centinaia di numeri che rappresenta il "significato" del token in uno spazio matematico multidimensionale.
La proprietà fondamentale: parole con significati simili finiscono vicine in questo spazio. Non perché qualcuno le abbia posizionate manualmente, ma perché il modello ha scoperto queste relazioni leggendo miliardi di testi durante l'addestramento.
Nella realtà, ogni vettore ha migliaia di dimensioni — non due. Ogni dimensione cattura un aspetto diverso del significato: genere, tempo verbale, formalità, ambito semantico e centinaia di altre caratteristiche che il modello ha scoperto autonomamente.
Uno degli aspetti più sorprendenti: gli embeddings supportano operazioni matematiche. Il vettore di re meno uomo più donna produce un vettore vicinissimo a regina. Il modello ha codificato relazioni semantiche come operazioni geometriche.
Attention — Il meccanismo che capisce il contesto
Ecco il cuore di un LLM. Il meccanismo di attention permette al modello di analizzare tutte le parole della frase contemporaneamente e calcolare quanto ogni parola sia rilevante per ogni altra.
Quando leggi "La mela è caduta dall'albero perché era matura", il tuo cervello capisce che "matura" si riferisce alla mela. L'attention fa qualcosa di analogo: assegna un peso a ogni coppia di parole nel contesto specifico.
Nell'infografica qui sotto, seleziona una parola per vedere a quali altre parole il modello presta attenzione quando la elabora. La lunghezza della barra indica l'intensità dell'attenzione.
Self-Attention e gli Attention Head
Un LLM non ha un solo meccanismo di attention ma decine in parallelo, chiamati attention head. Ogni head impara a catturare un tipo diverso di relazione: grammaticale, semantica, di prossimità, di co-referimento.
Il calcolo avviene attraverso tre trasformazioni: Query ("cosa sto cercando?"), Key ("cosa ho da offrire?") e Value ("il mio contenuto informativo"). Il prodotto tra Query e Key determina i pesi di attention; il Value viene poi pesato di conseguenza.
Il Transformer — L'architettura che ha cambiato tutto
Il Transformer è l'architettura pubblicata nel 2017 nel paper "Attention Is All You Need". È la struttura alla base di tutti i moderni LLM — GPT, Claude, Gemini, LLaMA, Mistral.
L'idea rivoluzionaria: eliminare le reti ricorrenti (che processavano le parole una alla volta) e usare solo il meccanismo di attention, permettendo di processare tutte le parole in parallelo. Questo ha reso possibile addestrare modelli enormi su quantità di dati impensabili prima.
I "parametri" di un modello sono i pesi numerici nelle sue matrici. GPT-3 ne ha 175 miliardi. I modelli di frontiera attuali ne hanno centinaia di miliardi o più. Ogni singolo parametro è stato calibrato durante un addestramento che ha richiesto mesi su migliaia di GPU — con costi nell'ordine delle decine di milioni di dollari.
Come genera il testo, token per token
Quando un LLM scrive una risposta, non la produce tutta insieme. Genera un token alla volta. Ad ogni passo prende tutto il testo precedente, lo processa attraverso tutti i layer del Transformer, e produce una distribuzione di probabilità sul prossimo token.
Un parametro chiamato temperatura controlla la casualità della scelta. Temperatura bassa = risposte prevedibili e precise. Temperatura alta = risposte creative ma più rischiose.
Questo si ripete centinaia o migliaia di volte per una risposta completa. Quando vedi il testo apparire in streaming, non è un effetto estetico — è il modello che decide letteralmente una parola alla volta.
Limiti, rischi e responsabilità
Comprendere come funziona un LLM è comprendere perché sbaglia. Non ha memoria persistente tra le conversazioni, non accede a internet autonomamente (a meno di strumenti specifici), non "sa" nel senso umano. Predice la sequenza più probabile.
Un LLM può generare informazioni false con assoluta sicurezza. Non "inventa" consapevolmente — produce la sequenza che statisticamente suona più plausibile, anche quando è sbagliata. Il termine tecnico è "allucinazione" ed è uno dei problemi aperti più importanti della ricerca AI.
I dati di addestramento sono testi scritti da esseri umani, con tutti i loro pregiudizi. Il modello li assorbe e li riproduce. Le aziende che sviluppano LLM investono enormi risorse per mitigarli, ma eliminarli completamente è una sfida aperta.
Un LLM può simulare catene logiche impressionanti, ma non "comprende" la causa e l'effetto come noi. Può risolvere un problema matematico e fallire in uno simile con numeri diversi. Il ragionamento emerge dalle correlazioni statistiche, non da una comprensione profonda.
Niente di tutto questo rende gli LLM meno utili. Li rende strumenti che richiedono consapevolezza. Verificare, mantenere il pensiero critico, non delegare decisioni importanti senza supervisione umana: non è solo buona pratica, è responsabilità di chi usa la tecnologia.