Articoli
Articolo

Dal Perceptron al Transformer

60 anni di reti neurali — dalle schede perforate di Rosenblatt al paper che ha ridefinito l'Intelligenza Artificiale.

14 min 2026 Riccardo Busolo
In breve

Nel 1958, un computer da 5 tonnellate imparò a distinguere destra da sinistra. Nel 2017, un paper di Google dimostrò che l'attenzione è tutto ciò che serve. Tra queste due date: un inverno glaciale, una rinascita, e le idee che hanno costruito l'AI che usi oggi. Questa è la storia delle reti neurali.

In questo articolo
  1. 1958 — Il Perceptron di Rosenblatt
  2. 1969 — Il muro di Minsky e il problema XOR
  3. L'Inverno dell'AI
  4. 1986 — Backpropagation: l'errore che viaggia all'indietro
  5. CNN e RNN — Reti che vedono e reti che ricordano
  6. 2017 — Attention Is All You Need
  7. L'esplosione: da BERT a GPT a Claude
1958

Il Perceptron di Rosenblatt

Luglio 1958. Un calcolatore IBM 704 — 5 tonnellate di valvole e fili — viene alimentato con schede perforate. Su ogni scheda, un punto nero posizionato a destra o a sinistra. Dopo 50 tentativi, la macchina impara a distinguerli. Senza istruzioni esplicite. Solo esempi.

L'inventore è Frank Rosenblatt, psicologo e ingegnere alla Cornell University. La sua creazione si chiama Perceptron: un singolo neurone artificiale che moltiplica ogni input per un peso, somma tutto, e produce una risposta binaria. Se sbaglia, i pesi si aggiornano. Col tempo, converge.

Il principio è elegante: apprendimento per correzione degli errori. Non dici alla macchina le regole — le lasci scoprire attraverso l'esperienza. Il New York Times lo definì "il primo dispositivo capace di avere un'idea originale".

Prova tu stesso

Puoi sperimentare esattamente lo stesso meccanismo nel nostro laboratorio interattivo Mark I — posiziona il segnale sulla scheda e osserva il perceptron imparare.


1969

Il muro di Minsky e il problema XOR

Per un decennio, il perceptron sembrò la chiave di tutto. Ma nel 1969, Marvin Minsky e Seymour Papert pubblicarono "Perceptrons", un libro che ne dimostrò un limite fatale: il perceptron a singolo strato non può risolvere problemi che non siano linearmente separabili.

L'esempio più celebre: la funzione XOR (OR esclusivo). Date due variabili binarie, XOR restituisce 1 quando sono diverse e 0 quando sono uguali. Sembra banale. Ma provate a tracciare una singola linea retta che separi i punti — è impossibile.

Infografica interattiva — Il problema XOR
X
Y
0
1
1
0
I punti cyan (1) e rossi (0) non possono essere separati da una singola linea retta.

Il perceptron può tracciare solo una linea. Per XOR ne servono due — e questo richiede più strati. Minsky e Papert lo dimostrarono formalmente. Ma l'impatto fu sproporzionato: i finanziamenti crollarono, i ricercatori cambiarono campo. Il perceptron fu dichiarato morto.


L'Inverno dell'AI

Dal 1969 alla metà degli anni '80, le reti neurali entrarono in un periodo noto come "AI Winter". I governi tagliarono i fondi. Le università spostarono le risorse verso altri approcci — sistemi esperti, logica simbolica, programmazione rule-based.

Rosenblatt morì nel 1971, a 43 anni, in un incidente in barca. Non vide mai la rivincita della sua intuizione. Ma sottotraccia, pochi ricercatori ostinati continuarono a lavorare. Sapevano che il perceptron non era il limite — era solo l'inizio.

La lezione dell'inverno

L'AI Winter ci insegna che l'entusiasmo eccessivo e le aspettative irrealistiche possono essere dannosi quanto lo scetticismo. È una lezione che vale ancora oggi, nell'era dei Large Language Model: strumenti potentissimi, ma non onniscienti.


1986

Backpropagation: l'errore che viaggia all'indietro

La svolta arrivò nel 1986, quando Rumelhart, Hinton e Williams pubblicarono un metodo per addestrare reti neurali con più strati: la backpropagation.

L'idea: quando la rete sbaglia, l'errore non viene usato solo per aggiornare l'ultimo strato. Viene propagato all'indietro, strato dopo strato, fino all'input. Ogni connessione viene aggiornata in proporzione al suo contributo all'errore. È il calcolo differenziale applicato all'apprendimento.

Infografica interattiva — Backpropagation
x₁
x₂
Input
h₁
h₂
h₃
Nascosto
ŷ
Output

Con la backpropagation, il problema XOR diventa banale: basta un singolo strato nascosto. Ma soprattutto, reti con molti strati possono imparare rappresentazioni gerarchiche — dal riconoscimento di bordi al riconoscimento di volti, dal suono delle lettere al significato delle frasi.

Geoffrey Hinton

Geoffrey Hinton, co-autore del paper sulla backpropagation, ha vinto il Premio Nobel per la Fisica nel 2024 per il suo lavoro sulle reti neurali. Ha dedicato 40 anni alla causa, attraversando ogni inverno e ogni estate dell'AI.


CNN e RNN — Reti che vedono e reti che ricordano

Con la backpropagation come fondamenta, nacquero due architetture che dominarono l'AI per tre decenni.

Le CNN: Reti Convoluzionali (1989)

Yann LeCun dimostrò che le reti neurali potevano riconoscere le cifre scritte a mano. La sua architettura — la CNN (Convolutional Neural Network) — imitava il sistema visivo: strati che riconoscono prima i bordi, poi le forme, poi gli oggetti completi. Ogni strato "vede" un pezzetto dell'immagine e costruisce una comprensione progressiva.

Le RNN: Reti Ricorrenti (1990s)

Per il linguaggio e le sequenze temporali serviva un'altra idea: la memoria. Le RNN (Recurrent Neural Networks) processano l'input un elemento alla volta, mantenendo uno "stato nascosto" che ricorda ciò che hanno visto prima. Come leggere una frase parola per parola, tenendo il filo del discorso.

Il problema delle RNN: la memoria si degrada. Le informazioni all'inizio della sequenza sbiadiscono man mano che la rete avanza. Per risolvere questo, nel 1997 nacquero le LSTM (Long Short-Term Memory) — reti con "cancelli" che decidono cosa ricordare e cosa dimenticare.

Il collo di bottiglia

Le RNN e le LSTM funzionavano, ma avevano un limite architetturale: processano le parole una alla volta, in sequenza. Non potevano essere parallelizzate. Questo significava addestramento lento su grandi quantità di dati. Serviva un cambio di paradigma.


2017

Attention Is All You Need

Nel giugno 2017, un team di Google pubblicò un paper dal titolo provocatorio: "Attention Is All You Need". Proponeva un'architettura completamente nuova — il Transformer — che eliminava le reti ricorrenti e le sostituiva con un unico meccanismo: l'attenzione.

L'idea chiave: invece di processare le parole in sequenza, il Transformer le guarda tutte contemporaneamente. Ogni parola può "prestare attenzione" a qualsiasi altra parola nella frase, indipendentemente dalla distanza. Niente più degradazione della memoria. Niente più collo di bottiglia sequenziale.

Confronto — RNN sequenziale vs Transformer parallelo
RNN (sequenziale)
Processa una parola alla volta →
Transformer (parallelo)
Processa tutte le parole insieme ⇉

Il risultato pratico fu devastante: i Transformer potevano essere addestrati su migliaia di GPU in parallelo, su quantità di testo impensabili prima. La parallelizzazione non era un dettaglio tecnico — era la chiave che ha reso possibile GPT, BERT, Claude e ogni LLM moderno.


L'esplosione: da BERT a GPT a Claude

Dopo il 2017, il Transformer innescò una reazione a catena.

Timeline — L'era del Transformer
2017
Transformer — Google pubblica "Attention Is All You Need"
2018
BERT (Google) — il primo modello a capire il contesto bidirezionale
2018
GPT-1 (OpenAI) — 117M parametri, generazione di testo
2020
GPT-3 — 175 miliardi di parametri. Il mondo si accorge dell'AI.
2022
ChatGPT — l'AI entra nelle case. 100 milioni di utenti in 2 mesi.
2023
GPT-4, Claude, Gemini, LLaMA — la competizione si accende.
2024–25
Agenti AI, ragionamento, multimodalità — la frontiera si espande.

Ogni modello che usi oggi — quando chiedi a un'AI di scrivere un'email, tradurre un documento, analizzare dati o generare codice — è un discendente diretto di quel paper del 2017. Che a sua volta è un discendente del perceptron di Rosenblatt del 1958.

Sessant'anni di intuizioni, fallimenti, ostinazione e scoperte. Da un singolo neurone artificiale alimentato con schede perforate a reti con migliaia di miliardi di parametri che conversano in linguaggio naturale. La storia non è finita — è appena diventata interessante.

Vuoi capire come funzionano questi strumenti?
Nei miei percorsi di formazione insegno a usare l'AI in modo consapevole — dalla teoria alla pratica operativa quotidiana.
Parliamone →