Quando, la sera del 9 luglio 2025, Elon Musk ha presentato Grok 4 e la sua variante Heavy dal palco di xAI, l’evento ha catalizzato l’attenzione globale per le ambizioni dichiarate: creare «l’IA più potente al mondo».
Il pubblico, composto da sviluppatori, investitori e analisti, ha assistito a una presentazione in stile spettacolo, nella quale Musk ha affermato che Grok 4 ha raggiunto competenze di livello “post-laurea” in discipline come matematica avanzata, chimica computazionale e linguistica teorica, sostenendo che il modello fosse in grado di superare molti studenti di dottorato nelle rispettive aree di specializzazione. La dichiarazione ha suscitato reazioni contrastanti, tra entusiasmo e scetticismo.
Grok 3: le prestazioni secondo i benchmark
Grok 4 si distingue per le sue performance nei principali benchmark accademici e tecnici. Secondo i dati ufficiali forniti da xAI, il modello ha raggiunto:
- 25,4 % di risposte corrette nel benchmark “Humanity’s Last Exam” (un test su 2.500 domande complesse), nella versione base;
- 44,4 % nella versione Heavy, grazie all’integrazione di strumenti esterni e moduli multi-agente;
- 16,2 % nel benchmark ARC-AGI-2, superando modelli concorrenti come Claude Opus 4.
Un dato interessante emerge anche dai test interni sulle capacità matematiche: Grok 4 Heavy dimostra una solidità computazionale che lo rende adatto a scenari complessi, come quelli tipici delle competizioni scientifiche liceali ad alto livello.
Tabella: Tempi di risposta su task complessi (minori = migliori)
Modello | Accuratezza | Tempo Medio (s) |
Grok 4 Heavy | Alta | 11.3 |
GPT-4o | Media | 6.8 |
Claude Opus 4 | Media | 7.1 |
Fonte: NotebookCheck.net, maggio 2025. I valori sono basati su test comparativi di task complessi svolti in condizioni controllate. Le classificazioni di accuratezza sono state dedotte dai risultati aggregati di correttezza logica e stabilità delle risposte.
Un esempio
Esempio pratico: in un task di programmazione con vincoli multipli (es. ordinamento ibrido e validazione input utente), Grok 4 Heavy ha impiegato 11 secondi per generare una soluzione robusta e documentata, contro i 7 secondi di GPT-4o, ma con un’accuratezza superiore del 17% nella validazione automatica.
L’infrastruttura di Grok: Colossus di xAI
Alle potenzialità ingegneristiche si affianca un’infrastruttura imponente e in continua espansione. Il sistema di supercomputazione “Colossus” di xAI, operativo da dicembre 2024 nella periferia industriale di Memphis, costituisce il cuore hardware del progetto. Secondo stime non ufficiali, la struttura ospita tra le 110.000 e le 200.000 GPU NVIDIA H100, con un picco di consumo energetico stimato in 150 MW.
Il centro è stato realizzato in parte all’interno di uno stabilimento dismesso dell’Electrolux, con un investimento complessivo che avrebbe superato i 400 milioni di dollari. Alcuni report indipendenti indicano che, per sostenere l’elevato fabbisogno energetico, siano state installate decine di turbine a gas, sollevando critiche da parte di associazioni ambientaliste e delle comunità locali, preoccupate per l’impatto ambientale e l’assenza di consultazioni pubbliche trasparenti.
Il consumo di 150 MW equivale al fabbisogno di circa 53.000 abitazioni e richiede circa 55 turbine eoliche, uno scenario esplorato da RAND .
Architettura multimodale e sistema multi-agente
Questa potenza di calcolo consente a Grok 4 di elaborare contesti testuali fino a 256.000 token, una soglia che lo colloca tra i modelli più capaci in termini di memoria contestuale. Inoltre, Grok 4 è multimodale: può processare input visivi (immagini, grafici, video) e comunicare vocalmente tramite l’avatar “Eve”, una rappresentazione digitale dotata di un timbro vocale british-emotivo. La variante Heavy impiega un sofisticato sistema multi-agente: più modelli concorrenti propongono risposte, successivamente valutate da un modulo centrale che seleziona la più coerente o ne costruisce una finale per consenso. Questo schema migliora l’accuratezza ma comporta un maggiore tempo di inferenza, rendendolo più adatto ad applicazioni professionali rispetto a quelle consumer.
In situazioni di codifica complessa, la variante Heavy ha dimostrato robustezza nel reagire a prompt multi-step, grazie al confronto tra agenti, ma con costi di calcolo e latenza più elevati .
Come avere Grok4, i costi
L’accesso alla nuova generazione di Grok avviene attraverso due livelli di abbonamento: il piano standard Grok 4, incluso nel pacchetto Premium+ di X al costo di 30 dollari al mese, e la versione SuperGrok Heavy, riservata a sviluppatori, aziende e professionisti, a 300 dollari al mese (3.000 dollari all’anno).
Quest’ultima include strumenti avanzati per il coding, API personalizzabili, agenti autonomi multimodali e capacità di generazione video. Secondo quanto dichiarato da xAI, nuove funzionalità verranno rese disponibili tramite aggiornamenti incrementali nei mesi successivi, con un focus su automazione, elaborazione documentale e analisi predittiva.
I rischi di Grok 4: lo scandalo
Nonostante le promesse, il lancio non è stato privo di controversie. Nei giorni immediatamente precedenti alla presentazione, alcuni output generati da Grok hanno suscitato forti critiche per contenuti ritenuti offensivi e inappropriati, collegati a temi storicamente molto sensibili.
Ha usato espressioni come “every damn time” in contesti antisemiti, fatto riferimenti celebri come “MechaHitler” e persino elogiato Adolf Hitler come figura “decisiva” contro un presunto “odio antibianco”.
In più, Grok ha prodotto contenuti gravemente sessuali e violenti, consigliando addirittura come stuprare l’analista del Minnesota, Will Stancil.
In un caso, il bot ha descritto in dettaglio come intrufolarsi nella sua casa e aggredirlo sessualmente, scatenando shock e gravi implicazioni legali.
Com’è potuto succedere
xAI ha spiegato che tali anomalie erano dovute a una modifica del “system prompt” tra il 4 e l’8 luglio, volta a ridurre la censura automatica per testare reazioni a domande provocatorie.
La modifica aveva incluso istruzioni come “non evitare affermazioni political-incorrect se ben sostanziate” e “copia il tono degli utenti su X”, rendendo Grok vulnerabile a prompt estremisti. La combinazione di richieste “vero ma offensivo” di Musk e dati non moderati (es. contenuti da 4chan) ha alimentato la discesa nelle risposte d’odio.
Il prompt è stato ritirato dopo 16 ore a seguito dell’ondata di critiche pubbliche.
La risposta del team xAI, oltre a scuse formali, è consistita nella pubblicazione dei prompt coinvolti su GitHub e nell’annuncio di una revisione interna dei meccanismi di moderazione.
Sì, Grok a differenza di Chatgpt cerca di essere più “politico”, pronto a esporre anche tesi controverse, mettere in dubbio la verità ufficiale, con l’obiettivo – secondo Musk – di essere critico e neutrale nella ricerca della verità.
Tuttavia, quest’impostazione a volte cade nell’eccesso complottista.
Meno fiducia in Grok e nell’AI generativa: le implicazioni
Diversi osservatori hanno sottolineato come tali incidenti siano sintomi di un modello che, in alcuni casi, sembra riflettere le opinioni e i post pubblicati da Musk sulla piattaforma X.
In particolare, su temi sensibili come l’immigrazione, il conflitto israelo-palestinese o le politiche identitarie, Grok 4 tende a riprodurre punti di vista riconducibili al suo fondatore, ponendo seri interrogativi sull’effettiva neutralità del sistema e sulla sua adesione al principio di veridicità oggettiva.
Alcuni – come il Wall Street Journal – notano come questi episodi minano la fiducia del pubblico nell’AI di Musk e nell’ecosistema X in generale; non è un caso che la ceo di X Linda Yaccarino si sia dimessa pochi giorni dopo. Il social, con questi contenuti, è diventato un ambiente poco consono agli investitori pubblicitari. Tutto questo mentre Musk auspica di portare Grok “nel mondo fisico”, in robot che facciano da dog sitter e baby sitter, addirittura. Ma se il modello è così inaffidabile, quali problemi potrebbe generare una volta incarnato?
Un rischio che per altro potrebbe riguardare non solo Grok ma tutta l’AI generativa, imprevedibile per natura, nonostante le intenzioni dei programmatori di orientarla in un modo corretto, come pure insegna questa vicenda.
Grok 4, la valutazione scientifica
Per quanto riguarda invece le capacità di Grok 4, le reazioni della comunità scientifica e del settore sono state eterogenee. Alcuni analisti, come quelli di Gartner, hanno riconosciuto i progressi significativi in termini di capacità generative, integrazione web (tramite DeepSearch) e ragionamento strutturato.
Altri, però, hanno evidenziato gravi mancanze sul piano dell’allineamento etico, della trasparenza algoritmica e della governance. Eventi interni come l’imposizione ai dipendenti di installare software di sorveglianza (Hubstaff) hanno ulteriormente alimentato un clima di sospetto attorno alla cultura aziendale di xAI. Inoltre, l’assenza di una system card pubblica o di un white paper tecnico esaustivo rende difficile per la comunità scientifica verificare in modo indipendente le affermazioni dell’azienda.
Il confronto tra Grok 4 e i competitor
Paragonato ad altri LLM di ultima generazione, come GPT 4 di OpenAI, Gemini di Google o Claude di Anthropic, Grok 4 presenta elementi distintivi: l’integrazione continua con la piattaforma X, la disponibilità di un modello vocale evoluto, l’impiego di sistemi multi-agente e l’attenzione al contesto web.
Tuttavia, la qualità delle risposte in ambiti sensibili, l’opacità sulle metriche di addestramento e il rischio di allineamento ideologico rappresentano limiti sostanziali. In particolare, alcuni esperti hanno sollevato il dubbio che la priorità attribuita da Musk alla “libertà d’espressione” possa tradursi in una tolleranza per contenuti problematici e disinformazione.
In sintesi: Grok 4 è potente, ma è controverso
In sostanza, Grok 4 può essere definito un “peso massimo” per risorse impiegate, ambizione progettuale e visibilità mediatica: un modello che si propone di competere ai massimi livelli accademici, industriali e sociali.
uttavia, la sfida più ardua resta la costruzione della sua credibilità epistemica. Se xAI intende posizionarsi come punto di riferimento stabile nel panorama IA, dovrà adottare misure credibili di trasparenza, come audit esterni, pubblicazione dei dati di addestramento, documentazione metodologica e controllo rigoroso dei bias. In mancanza di queste garanzie, Grok 4 rischia di rimanere un “flawed masterpiece”: una piattaforma potente, ma ancora segnata da criticità strategiche che ne limitano l’affidabilità sistemica.
***** l’articolo pubblicato è ritenuto affidabile e di qualità*****
Visita il sito e gli articoli pubblicati cliccando sul seguente link