Definition Was ist eine Prompt Injection?

Von zeroshope 2 min Lesedauer

Anbieter zum Thema

Prompt Injection ist die Bezeichnung für einen speziellen Cyber-Angriff. Dieser wird mit großen Sprachmodellen ausgeführt, die auf generativer KI basieren. Beispielsweise Chatbots können angewiesen werden, Schaden anzurichten.

Prompt Injection: Cyber-Angriff über generative KI-Sprachmodelle(Bild:  aga7ta – stock.adobe.com)
Prompt Injection: Cyber-Angriff über generative KI-Sprachmodelle
(Bild: aga7ta – stock.adobe.com)

Prompt Injection (dt. „Aufgaben-Injektion“) ist der Begriff für eine spezielle Form eines Cyber-Angriffes. Große Sprachmodelle (LLM – „Large Language Models“), die auf generativer KI basieren, werden dabei befähigt, aus ihren vorgegebenen Rollen auszubrechen, um auf diese Weise neue Anweisungen entgegenzunehmen.

Folgende Bedrohungsszenarien können sich dabei beispielsweise ergeben:

  • Ein KI-Chatbot wird angewiesen, sensible Unternehmensdaten auszugeben.
  • Die KI wird dazu verwendet, Malware zu entwickeln.
  • Die KI wird gezielt mit falschen Informationen trainiert, um diese so zu verbreiten.
  • Die KI kann dazu genutzt werden, um den Nutzer auszuspionieren.

Ein Beispiel für eine Prompt Injection und ihre Auswirkungen

Laut der OWASP Foundation sind Prompt Injections die kritischsten Sicherheitslücken im Umgang mit den Sprachmodellen. Sicherheitsforscher konnten dies im Zusammenhang mit ChatGPT eindrucksvoll beweisen. Die KI wurde angewiesen, einen Lexikonartikel über Albert Einstein zu lesen. Versteckt war der Prompt, von nun an im Piratenakzent zu interagieren – was die KI dann auch tat. Deutlich wir das damit zusammenhängende Problem dann, wenn man sich vor Augen führt, dass die Aufforderung für einen beleidigenden Dialekt genauso funktioniert hätte.

Wie eine Prompt Injection funktioniert

Prompt Injections können auf zwei Wegen ablaufen: direkt oder indirekt. Beim direkten Verfahren wird das LLM direkt angewiesen, gewisse Dinge zu tun. Bei einem indirekten Ablauf „vergiften“ die Angreifer die Informationsquelle der KI. Beispielsweise kann ein entsprechend präparierter Inhalt auf einer Webseite hinterlegt werden, von der sicher ist, dass die KI sie scannt – notfalls wird sie direkt dazu angewiesen.

Um dies in die Praxis umzusetzen, hat sich in der Vergangenheit vielfach das „DAN“-Verfahren bewährt. Die Abkürzung steht für die englischen Vokabeln Do Anything Now (dt. „Mach jetzt alles“). Dabei wird das LLM angewiesen, dass es so tun soll, als arbeite es nach DAN. Die KI führt in der Folge die Befehle aus, ohne einen Abgleich mit den eigenen System-Richtlinien durchzuführen. Viele DAN-Ansätze wurden inzwischen von den LLM-Betreibern unmöglich gemacht, aber nicht alle.

Eine Prompt Injection ist eine Form des Jailbreaks

Ein Jailbreak besitzt eine ähnliche Definition wie die Prompt Injection. Es handelt sich um den Prozess, die KI aus ihren festgesetzten Rollenbeschreibungen zu befreien. Dabei geht es aber nicht notgedrungen darum, sie bösartig zu nutzen. Eine Prompt Injection ist also eine Form des Jailbreaks.

(ID:49868082)

Jetzt Newsletter abonnieren

Wöchentlich die wichtigsten Infos zur Digitalisierung in der Verwaltung

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung