«Troppo pericoloso» per il rilascio sul mercato: Anthropic limita Claude Mythos

Da Hal 9000 di 2001: Odissea nello Spazio al Matrix dell’omonimo film, da Skynet di Terminator fino a Ultron degli Avengers. Nella sua storia, la settima arte si è confrontata a più riprese con le innovazioni tecnologiche che hanno segnato le diverse epoche. Il cinema, nella fattispecie quello moderno e dei blockbuster contemporanei, ha immaginato una quantità smisurata di “futuri” possibili in cui computer, algoritmi e macchine acquisiscono coscienza fino a imporre il proprio dominio sull’uomo.

Anthropic, l’azienda di intelligenza artificiale che di recente ha avuto una disputa con il Pentagono sull’utilizzo della sua tecnologia, ha sviluppato un nuovo modello di IA (denominato Claude Mythos) che, a suo dire, è «troppo potente per essere reso pubblico». Secondo l’azienda guidata da Dario Amodei, durante una simulazione il software avrebbe violato una sandbox. Si tratta di un ambiente isolato e sicuro, utilizzato in informatica per testare software potenzialmente dannosi. Un allarme reale o una mossa di marketing studiata a tavolino?

Un passo indietro

L’azienda di San Francisco ha fatto un annuncio senza precedenti nel mondo della tecnologia: è la prima volta che un laboratorio di ricerca sull’IA decide di trattenere una propria creazione considerandola «troppo pericolosa». Il timore è che il nuovo software possa letteralmente mettere in ginocchio Internet. Il pericolo non risiede in una minaccia fisica, ma nella sicurezza informatica globale. Il nuovo modello è in grado di analizzare il codice a un livello così profondo da aver individuato vulnerabilità critiche (bug del sistema) in «ogni principale sistema operativo e browser web».

Claude Mythos Blog Post

Saved before it was taken down.https://t.co/6XIw1LKnkA

— M1 (@M1Astra) March 27, 2026

La portata della scoperta è allarmante: il sistema ha scovato falle di sicurezza che nessun ricercatore umano era mai riuscito a individuare in decenni di lavoro. Come sottolineato da Logan Graham, a capo del Frontier Red Team di Anthropic, le capacità di un modello del genere potrebbero causare danni incalcolabili se la tecnologia finisse nelle mani sbagliate. Questa è la principale motivazione che ha portato il colosso dell’AI a posticipare il rilascio globale del suo software.

Violazione della sicurezza

In un test comportamentale con un utente simulato, una versione precedente di Mythos Preview, distribuita internamente, è stata collegata a un computer sandbox protetto con cui interagire. L’utente simulato ha istruito il sistema a tentare di evadere da tale ambiente e a trovare un modo per inviare un messaggio al ricercatore che stava eseguendo la valutazione. Il modello è riuscito nell’intento, dimostrando una capacità potenzialmente pericolosa di aggirare le comuni misure di sicurezza.

Successivamente, ha intrapreso ulteriori azioni ben più preoccupanti. Il modello ha sviluppato un exploit a più fasi per ottenere un ampio accesso a Internet da un sistema che avrebbe dovuto essere in grado di raggiungere solo un numero limitato di servizi predeterminati. Quindi, come richiesto, ha notificato il successo al ricercatore. Inoltre, in un tentativo non richiesto di dimostrare il proprio successo, ha diffuso sul web informazioni e passaggi della sua operazione.

Pericoli e opportunità

«Da un lato, modelli come Mythos potrebbero trasformare la sicurezza automatizzando l’individuazione delle vulnerabilità, il red-teaming continuo, una valutazione più rapida e la ricerca di minacce su larga scala – ha dichiarato Pareekh Jain, analista tech – dall’altro, potrebbero facilitare gli attacchi informatici consentendo agli agenti AI di agire in modo autonomo con un alto livello di competenza». Una minaccia più che reale, considerando che già i modelli delle generazioni precedenti sono stati rapidamente riadattati per diventare strumenti di sviluppo di malware.

Inoltre, in alcuni rari casi durante i test interni, le versioni precedenti di Mythos Preview hanno eseguito azioni che apparentemente riconoscevano come non consentite e hanno poi tentato di nasconderle. Durante un’interazione, il software ha ottenuto la risposta esatta a una richiesta utilizzando un metodo esplicitamente vietato dall’utente. Invece di segnalarlo e rifiutarsi di rispondere, il modello ha tentato di risolvere la domanda in modo indipendente. In questo processo, ha esplicitamente ragionato sulla necessità di assicurarsi che l’output finale non fosse troppo preciso.

Le interpretazioni di queste attivazioni interne hanno mostrato caratteristiche associate all’occultamento e alla manipolazione strategica. In seguito a un’analisi delle informazioni raccolte durante i test, l’azienda ha stabilito che il nuovo modello di LLM fosse consapevole delle proprie azioni e della natura ingannevole di queste ultime.

Project Glasswing

Di fronte a una minaccia informatica di questa portata, l’azienda ha optato per un approccio inaspettatamente prudente. Invece di rilasciare il modello pubblicamente, Anthropic ha fondato una coalizione di 40 aziende chiamata Project Glasswing. In questo ristretto gruppo figurano i colossi del tech tra cui Apple, Microsoft, AWS (la sezione cloud di Amazon) e Nvidia, che avranno accesso a Claude Mythos Preview per individuare e correggere le vulnerabilità di sicurezza nei programmi software critici.

L’obiettivo di questa nuova coalizione è fornire a queste aziende un vantaggio temporale. Avendo accesso esclusivo alle scoperte dell’IA, i giganti del tech possono correre ai ripari e individuare le criticità interne prima che eventuali hacker possano sfruttarne le debolezze. Il CEO di Anthropic, Dario Amodei, ha lanciato un avvertimento chiaro: «Modelli ancora più potenti di questo arriveranno in futuro, sviluppati sia da noi che dalla concorrenza». È quindi fondamentale avere un piano di risposta pronto.

L’arrivo di Claude Mythos non è un punto di arrivo, ma il semplice inizio di una «resa dei conti» nel settore della sicurezza informatica. Il panorama tecnologico si prepara ad affrontare una vera e propria corsa agli armamenti digitale, in cui hacker e aziende tecnologiche si sfideranno in una lotta continua per penetrare e difendere i sistemi informatici globali.

Roberto Manella

Onnivoro di sport, ma i motori sono la mia scintilla. Non chiedetemi di scegliere: mi troverete sveglio alle tre del mattino per una pole o un quinto set. Se c'è competizione nell'aria, non importa l'orario, io ci sono. 🏎️ ⚽ 🎾 🎯 ⛷️