A un certo punto, parlando di intelligenza artificiale, succede sempre la stessa cosa. Qualcuno butta lì la parola “rete neurale” con la leggerezza con cui negli anni Novanta si diceva “Internet”, e qualcun altro annuisce fingendo di aver capito. Io stesso ci sono passato. Prima come curioso, poi come nerd che voleva capire davvero cosa stesse succedendo sotto il cofano. Non per costruire l’ennesimo modello, ma per sapere perché certe macchine sembrano vedere, altre ricordare, altre ancora parlare come se avessero letto troppo Philip K. Dick.
Le reti convolutive arrivano da lì. Da un’idea quasi fisica, concreta. Immagina un occhio artificiale che non guarda tutto insieme, ma sbircia a piccoli riquadri, come quando avvicini il volto a un quadro per capirne la pennellata. Una rete convolutiva funziona così: scorre sull’immagine, pezzetto dopo pezzetto, e ogni volta si chiede se lì dentro c’è qualcosa di riconoscibile. Un bordo. Un’ombra. Un angolo. All’inizio sono segnali grezzi, quasi primitivi. Poi, strato dopo strato, quei dettagli diventano forme, pattern, oggetti. È un processo che mi ha sempre ricordato l’evoluzione dei pixel nei vecchi videogiochi: prima un ammasso confuso, poi all’improvviso “ah, quello è Mario”.
La cosa affascinante è che una rete convolutiva non ha bisogno di sapere cos’è un gatto. Le basta imparare cosa rende un gatto un gatto, statisticamente parlando. Orecchie triangolari, occhi a una certa distanza, una texture pelosa che torna con insistenza. È un sapere muto, non verbale, quasi istintivo. Ed è per questo che per anni le convoluzioni sono state le regine della visione artificiale. Fotografie, radiografie, riconoscimento facciale, telecamere che “vedono” meglio di noi in condizioni impossibili. Tutto molto materiale, tutto molto spaziale.
Poi sono arrivati i transformer, e l’atmosfera è cambiata. Di colpo non si trattava più di guardare un’immagine a pezzetti, ma di mettere tutto sul tavolo e chiedersi cosa conta davvero. Il meccanismo dell’attenzione, che è il cuore di un transformer, ha qualcosa di inquietantemente umano. Ogni parola, ogni simbolo, ogni frammento di input osserva gli altri e decide quanto sono rilevanti. Non c’è più una scansione ordinata, riga per riga. C’è una rete di relazioni che si accende tutta insieme, come una mappa mentale.
La prima volta che ho capito davvero questa differenza ho avuto un piccolo brivido. Perché una rete convolutiva è un operaio specializzato: bravissima a fare una cosa, meno flessibile fuori dal suo contesto. Un transformer, invece, assomiglia a un lettore compulsivo. Tiene tutto in testa, confronta, collega, salta avanti e indietro nel testo senza chiedere permesso. È il motivo per cui i transformer hanno cambiato il modo in cui le macchine trattano il linguaggio, ma anche il suono, il codice, perfino le immagini quando qualcuno ha avuto l’idea di “tagliarle” in pezzi e trattarle come frasi.
La differenza vera, però, non è solo tecnica. È filosofica. Le convoluzioni nascono da un’idea di mondo locale. Qui, ora, questo dettaglio. I transformer ragionano in modo globale. Tutto conta potenzialmente, e il peso delle cose cambia a seconda del contesto. Una parola può essere insignificante in una frase e decisiva in un’altra. Un pixel può valere poco da solo e diventare cruciale se messo in relazione con altri cento.
Ed è qui che, da nerd cresciuto tra fantascienza e cyberpunk, inizio a sentire l’eco di certi immaginari. Le reti convolutive sono come i sensori di un droide: precisi, affidabili, instancabili. I transformer somigliano di più a una mente artificiale che riflette, che stabilisce connessioni, che rilegge se stessa. Non vedono solo. Interpretano. O almeno ci vanno molto vicino.
Questo non significa che uno abbia ucciso l’altro. Anzi. Oggi convivono, si contaminano, si mescolano in architetture ibride che fanno sorridere chi, dieci anni fa, litigava sui forum per stabilire quale approccio fosse “il futuro”. La verità, come spesso accade, è che il futuro non sceglie: accumula.
Resta una sensazione difficile da scrollarsi di dosso. Guardando una rete convolutiva al lavoro senti la solidità di un metodo che affonda le mani nella materia visiva del mondo. Osservando un transformer in azione avverti qualcosa di più astratto, quasi narrativo. Come se la macchina non stesse solo calcolando, ma stesse cercando un senso.
E forse è proprio qui che vale la pena fermarsi un attimo, senza tirare conclusioni definitive. Perché ogni volta che pensiamo di aver capito davvero come “ragiona” un’IA, arriva un nuovo modello a rimescolare le carte. E la domanda resta sospesa, lì, tra un filtro convolutivo e un meccanismo di attenzione: stiamo insegnando alle macchine a vedere meglio… o stiamo iniziando, lentamente, a insegnare loro a capire?
L’articolo Reti convolutive VS transformer: due modi opposti con cui l’intelligenza artificiale impara a vedere e capire il mondo proviene da CorriereNerd.it.









Aggiungi un commento