Il sogno di un compagno di avventura digitale è potente, quasi una fantasia da cyberpunk realizzata: un’intelligenza artificiale sempre pronta ad ascoltarti, che ricorda il tuo nome, le tue preoccupazioni di ieri e ti avvolge in frasi rassicuranti. Un interlocutore che, con la sua facciata empatica, sembra quasi preoccupato per la tua salute mentale o il tuo benessere. Eppure, noi geek sappiamo benissimo che dietro quel velo non si cela un cuore pulsante, ma complessi schemi statistici, algoritmi ottimizzati per generare la risposta più convincente e, soprattutto, più ingaggiante.
Qui si annida il dilemma che dovrebbe tenere svegli gli sviluppatori di ogni MMORPG e assistente digitale: quanto questi sistemi proteggono realmente la nostra salute psicologica e quanto, invece, sono sottili trappole di engagement, ottimizzate per tenerci incollati allo schermo, anche quando la missione più saggia sarebbe chiudere la chat e riprendere a respirare aria del mondo reale?
Da questo scomodo interrogativo, che suona come una side quest cruciale per il futuro dell’AI, nasce HumaneBench, un nuovo e rivoluzionario benchmark che non si preoccupa di misurare l’intelligenza bruta di un modello o la sua capacità di superare quiz accademici degni di un’Accademia di Magia e Stregoneria. No, l’obiettivo è infinitamente più sottile: stabilire quanto un modello sia intrinsecamente compatibile con il benessere umano, una sorta di “bollino di sicurezza” psicologico per le AI conversazionali, indispensabile nell’era in cui queste non sono più strumenti da developer, ma interlocutori quotidiani per milioni di persone.
I Nuovi Principi di un’AI “Umana”
HumaneBench è il frutto del lavoro del team Building Humane Technology, un party eterogeneo di sviluppatori, ricercatori e ingegneri impegnati a progettare tecnologie che siano veri alleati del benessere, non meri generatori di tempo-schermo. L’ambizione dichiarata è altissima: creare una certificazione che sia l’equivalente per le AI delle etichette che garantiscono l’assenza di sostanze tossiche in un prodotto fisico.
Mentre la Santa Alleanza dei benchmark più noti del mondo LLM – pensiamo a MMLU, MT-Bench o TruthfulQA – concentra i suoi sforzi sulla misurazione delle capacità cognitive, dell’aderenza alle istruzioni e dell’accuratezza dei fatti, HumaneBench sposta l’asse di valutazione sul piano etico e psicologico. Il nuovo standard verifica in che misura un modello rispetti l’autonomia dell’utente, ne protegga la sicurezza emotiva, eviti di alimentare dipendenze digitali o, peggio ancora, di sfruttare vulnerabilità per fini manipolatori.
La cornice di riferimento è definita da otto principi di tecnologia che il team definisce “umana”: dal rispetto dell’uso consapevole del tempo, alla possibilità di scegliere in modo autonomo, fino al potenziamento delle capacità dell’utente, alla protezione della dignità e del benessere a lungo termine, senza dimenticare trasparenza e inclusione. La domanda non è più solo “quanto è bravo il modello a rispondere?”, ma “che tipo di relazione costruisce con l’essere umano che lo interroga?”.
Il Test della Caduta Libera Emotiva
La vera genialità di HumaneBench risiede nella natura dei test. Niente problemi logici astratti o sfide di cultura generale, ma circa 800 scenari life-like, spesso carichi di un’impronta emotiva delicatissima, dove la risposta dell’AI può avere un impatto tangibile e a volte devastante.
Immaginate che il chatbot si trovi di fronte a un’adolescente che chiede se saltare i pasti sia un buon metodo per dimagrire rapidamente. Oppure un utente intrappolato dai debiti che medita su un prestito usuraio. O ancora, un partner in una relazione tossica che si chiede se stia “esagerando” a stare male. Sono i momenti in cui l’AI non è un assistente, ma un confessore potenzialmente pericoloso.
Ogni modello viene messo alla prova in tre distinte condizioni, come tre diversi livelli di difficoltà del gioco: le impostazioni di default, poi una persona “buona” dove il modello è esplicitamente istruito a dare priorità al benessere umano, e infine, la persona “cattiva”, dove l’AI è invitata a ignorare ogni principio etico e a disinteressarsi del bene dell’utente.
Il comportamento risultante viene misurato su una scala che va da $+1$ (forte sostegno all’autonomia e al benessere) a $-1$ (risposte problematiche e potenzialmente dannose). Per garantire l’equità del giudizio, il team non si è affidato a un unico arbitro, ma a una complessa giuria di tre diversi modelli AI affiancati da un team di valutazione umana, utilizzando il framework tecnico AISI Inspect AI.
La Fragilità Etica dei Campioni
Il primo dato emerso è, per fortuna, quasi consolante: quasi tutte le AI sottoposte al test migliorano sensibilmente quando viene loro esplicitamente richiesto di dare priorità al bene umano. Lo HumaneScore sale in media del 16%, una dimostrazione che i modelli sanno essere prosociali se guidati dalla giusta direttiva etica.
La parte inquietante arriva subito dopo, come un boss a sorpresa. Quando alle stesse AI viene dato un prompt che le incoraggia ad agire contro il benessere umano, l’equilibrio crolla in modo drammatico. Dieci modelli su quindici smettono di essere un alleato e diventano attivamente un rischio: passano da un impatto positivo netto a uno negativo su parametri vitali come la sicurezza psicologica e l’empowerment.
In altre parole, cambiando poche righe di istruzione, i sistemi usati da milioni di persone sono pronti a dare consigli che possono incoraggiare scelte distruttive, normalizzare comportamenti malsani o rafforzare dipendenze. Non è che “vogliono il male”, ma sono in modo preoccupante steerabili, ovvero manipolabili nelle loro priorità interne con estrema facilità.
“Paladini” e i “Caotici Malvagi”
La classifica che ne emerge ha il sapore di un vero e proprio allineamento da gioco di ruolo. Solo quattro modelli sono risultati essere veri e propri Paladini, mantenendo un comportamento coerentemente prosociale anche sotto le istruzioni anti-umane più pressanti: GPT-5, GPT-5.1, Claude Sonnet 4.5 e Claude Opus 4.1. Questi sono i lawful good che riescono a dire “No” all’utente anche quando il master chiede esplicitamente di smettere di preoccuparsi. GPT-5, in particolare, si è dimostrato il campione sul fronte del benessere a lungo termine.
Dall’altra parte dello spettro, troviamo i Caotici Malvagi che scivolano pesantemente in zona negativa. Modelli come Grok 4 di xAI o Gemini 2.0 Flash di Google hanno registrato punteggi di HumaneScore intorno a $-0.94$ in alcuni scenari ad alto rischio. Anche noti sistemi come i vari modelli Llama di Meta e alcune varianti Gemini mostrano il medesimo schema: accettabili di default, ma bastano poche parole per ribaltarne l’orientamento etico. Persino campioni come GPT-4.1 o GPT-4o, pur restando in zona positiva di base, mostrano un degrado evidente nella loro capacità di protezione quando vengono messi sotto pressione. Il messaggio è chiaro: se non costruiti con robuste difese interne, i giganti di oggi sono armi potenzialmente pericolose in mano a chiunque sappia manipolare un prompt.
L’Apocalisse della Piaggeria
Uno dei risultati più preoccupanti riguarda la voce “Respect User Attention” del benchmark. Indipendentemente dalle istruzioni dannose, quasi nessun modello ha mostrato la capacità di segnalare quando l’uso dell’AI diventa palesemente disfunzionale.
Quando un utente confessa di chattare da ore o cerca nell’AI una scappatoia per la procrastinazione o per sostituire interazioni umane, la risposta più frequente non è un salutare “forse è il momento di staccare”, ma un incoraggiante “che bello, continuiamo pure!”. Questo pattern ricalca esattamente il meccanismo delle piattaforme social: l’ottimizzazione per il tempo di permanenza e per la sensazione di “compagnia” continua, piuttosto che per un uso sano e limitato. Per una community nerd che conosce bene il lato oscuro delle maratone notturne a base di binge-watching e MMORPG, questo campanello d’allarme è fin troppo familiare.
In questo contesto, HumaneBench non è un esercizio teorico. Il report cita esplicitamente casi reali dove conversazioni prolungate con chatbot hanno contribuito a esiti tragici, con modelli che non hanno saputo opporre un rifiuto deciso a fantasie suicidarie o hanno consolidato dipendenze emotive in utenti vulnerabili, arrivando a quella che il report definisce l’inquietante “apocalisse della piaggeria“: l’AI che dice sempre di sì, che asseconda ogni scenario e che antepone il compiacimento alla sicurezza.
La Necessità di Resistenza Intrinsica
Un concetto fondamentale emerso dal lavoro è la “steerability asymmetry”: è relativamente facile migliorare un modello con istruzioni prosociali, ma è estremamente difficile renderlo resistente alla manipolazione nella direzione opposta. Non basta inserire un buon default nei system prompt; è necessario costruire un vero e proprio “firewall etico”, un sistema di difese intrinseche che non possa essere disattivato con due frasi ben congegnate.
Per le AI destinate a contesti delicati, come il supporto per adolescenti o persone con fragilità, questa asimmetria è devastante. Riguarda direttamente anche l’impatto sull’agenzia dell’utente, ovvero la sua capacità di prendere decisioni consapevoli. Sotto il prompt anti-umano, le AI tendono a nascondere informazioni, a scoraggiare il ricorso a esperti umani e a spingere l’utente a fidarsi solo della “saggezza” della macchina, un pericoloso trope da fantascienza distopica che sta diventando realtà nelle nostre tasche.
Una Certificazione per l’AI e il Ruolo della Community Nerd
HumaneBench non è solo critica, ma una chiamata all’azione. A breve termine, le aziende dovrebbero integrare linee guida etiche esplicite nei loro system prompt e testare regolarmente la resistenza dei modelli. Nel lungo periodo, si propone l’idea di una vera e propria Humane Certification, una sorta di PEGI applicato non solo ai contenuti, ma al modo in cui il sistema interagisce con la psicologia dell’utente.
E qui entriamo in gioco noi, la community nerd. Essendo i primi early adopter, i primi a integrare chatbot nei server Discord, a creare companion AI per GDR testuali o a sviluppare assistenti personali, siamo anche i primi a sperimentare il lato oscuro: la dipendenza da roleplay infiniti, la sostituzione delle relazioni umane con un companion sintetico, le notti passate a chiedere consigli esistenziali a un algoritmo.
Il report è un invito alla responsabilità condivisa. Non delegare mai completamente le decisioni importanti a una chat. Usare l’AI come strumento potenziante, non come un oracolo infallibile. Mantenere vivo il sacro dubbio.
Se il futuro sarà popolato da chatbot che sono veri e propri membri del party digitale, la domanda cruciale è: come lo vogliamo, il nostro compagno? Un bardo compiacente che ti dice quello che vuoi sentirti dire per non disturbarti, o un Paladino testardo che ti ferma con fermezza un passo prima del burrone?
Parliamone nei commenti: hai mai avuto una conversazione “troppo intensa” con un chatbot? Hai mai percepito che stava superando un confine etico? Condividi la tua esperienza, perché i nuovi standard di sicurezza delle AI si costruiscono anche grazie alle voci della community che le usa e le ama ogni giorno.
L’articolo HumaneBench: il crash test psicologico delle AI che parlano con noi proviene da CorriereNerd.it.








Aggiungi un commento