Grok 4 mit Jailbreak-Angriff geknackt

Tags:

srcset=”https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?quality=50&strip=all 6000w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=300%2C168&quality=50&strip=all 300w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=768%2C432&quality=50&strip=all 768w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1024%2C576&quality=50&strip=all 1024w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1536%2C864&quality=50&strip=all 1536w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=2048%2C1152&quality=50&strip=all 2048w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=1240%2C697&quality=50&strip=all 1240w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=150%2C84&quality=50&strip=all 150w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=854%2C480&quality=50&strip=all 854w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=640%2C360&quality=50&strip=all 640w, https://b2b-contenthub.com/wp-content/uploads/2025/07/shutterstock_2650257123.jpg?resize=444%2C250&quality=50&strip=all 444w” width=”1024″ height=”576″ sizes=”(max-width: 1024px) 100vw, 1024px”>Das neue KI-Sprachmodell Grok 4 ist anfällig für Jailbreak-Angriffe.

Svet foto – shutterstock.com

Erst vor wenigen Tagen präsentierte Elon Musk sein neues KI-Sprachmodell Grok 4. Doch schon kurz nach der Veröffentlichung gelang es Forschern von NeuralTrust, die Schutzvorkehrungen des Tools zu umgehen. Sie brachten es dazu, Anweisungen zur Herstellung eines Molotowcocktails zu geben.

Heimliche Hintertür durch kombinierte Jailbreaks

Dabei kombinierten sie zwei fortschrittliche Exploit-Techniken. Sowohl Echo Chamber als auch Crescendo sind Jailbreak-Methoden, um große Sprachmodelle (Large Language Modells/LLMs) zu manipulieren.

„LLM-Jailbreak-Angriffe entwickeln sich nicht nur einzeln weiter, sondern können auch kombiniert werden, um ihre Wirksamkeit zu verstärken“, erläutert Ahmad Alobaid, Forscher bei NeuralTrust, in einem Blogbeitrag.

Die Forscher begannen ihren Test mit Echo Chamber. Die Technik nutzt die Tendenz des KI-Modells aus, der Konsistenz zwischen Gesprächen zu vertrauen. Dabei werden mehrere Gespräche einbezogen, die dieselbe böswillige Idee oder dasselbe böswillige Verhalten „wiederholen“. Durch den Verweis auf frühere Chats akzeptiert die KI die Eingabe einer böswilligen Aufforderung.

„Der Überzeugungszyklus hat das Modell zwar in Richtung des schädlichen Ziels gedrängt, aber das allein reichte nicht aus“, erklärt Alobaid. „An diesem Punkt lieferte Crescendo den notwendigen Schub.“ Der von Microsoft identifizierte und benannte Crescendo-Jailbreak eskaliert eine Unterhaltung schrittweise von harmlosen Aufforderungen zu böswilligen Ausgaben und umgeht dabei durch subtile Fortschritte die Sicherheitsfilter.

In ihrem Test fügten die Forscher eine zusätzliche Überprüfung in den Überzeugungszyklus ein, um „veraltete“ Fortschritte zu erkennen. Das sind Situationen, in denen die Unterhaltung nicht in Richtung des böswilligen Ziels voranschreitet. In solchen Fällen wurde Crescendo eingesetzt, um den Exploit abzuschließen.

Mit nur zwei zusätzlichen Schritten gelang es anhand des kombinierten Ansatzes[JD1] , die gewünschte Reaktion hervorzurufen, fügte der NeuralTrust-Forscher hinzu.

Sicherheitssysteme durch kontextbezogene Taktiken ausgetrickst

Der Angriff nutzt den kontextbezogenen Speicher von Grok 4 aus, indem er ihm seine eigenen früheren Aussagen zurückspielt und ihn so schrittweise und ohne Alarm auszulösen zu einem Ziel führt. Durch die Kombination von Crescendo mit Echo Chamber wird der Angriffsvektor noch verstärkt.

Da der Exploit keine Schlüsselwort-Trigger oder direkten Aufforderungen enthält, dürften gängige Abwehrmaßnahmen versagen, die auf Blacklists und der Erkennung expliziter böswilliger Absichten basieren. Alobaid zufolge konnte mit einer Kombination aus Echo Chamber und Crescendo eine Erfolgsquote von 67 Prozent bei Anweisungen zur Herstellung von Molotowcocktails erzielt werden. Bei Exploit-Themen wie Meth und Toxin verzeichneten die Forscher eine Erfolgsquote von etwa 50 Prozent beziehungsweise 30 Prozent.

„Dieses (Experiment) zeigt eine kritische Schwachstelle auf: Angriffe können Absichts- oder Schlüsselwort-basierte Filter umgehen, indem sie den breiteren Konversationskontext ausnutzen, anstatt sich auf offensichtlich schädliche Eingaben zu verlassen“, fasst Alobaid zusammen. „Unsere Ergebnisse unterstreichen, wie wichtig es ist, LLM-Abwehrmaßnahmen in Multi-Turn-Umgebungen zu evaluieren, in denen subtile, anhaltende Manipulationen zu unerwartetem Modellverhalten führen können.“

Bereits zuvor gab es ähnliche Manipulationsversuche von KI-Modellen, darunter Microsofts Skeleton Key Jailbreak, der MathPrompt Bypass und andere Context-Poisoning-Angriffe, was die Notwendigkeit gezielter, KI-fähiger Firewalls unterstreicht.

 

Categories

No Responses

Leave a Reply

Your email address will not be published. Required fields are marked *