← Zurück zur Übersicht OpenAI öffnet Safety Bug Bounty: Jetzt zählen auch Agenten-Missbrauch und Prompt Injection

OpenAI öffnet Safety Bug Bounty: Jetzt zählen auch Agenten-Missbrauch und Prompt Injection

OpenAI macht AI-Missbrauch erstmals bounty-fähig

Am 25. März 2026 hat OpenAI ein öffentliches Safety Bug Bounty gestartet. Der Schritt ist relevant, weil damit nicht mehr nur klassische Sicherheitslücken mit klaren Berechtigungsfehlern oder Infrastruktur-Schwächen gemeldet werden können. Jetzt sind auch AI-spezifische Missbrauchs- und Sicherheitsrisiken im Fokus, wenn sie realen Schaden plausibel machen.

Stand Dienstag, 31. März 2026, ist genau das der spannende Punkt: Wer mit Agenten, Browser-Automation oder MCP-ähnlichen Toolketten arbeitet, bekommt damit eine offizielle Meldeschiene für Probleme, die bislang oft zwischen Red Teaming, Prompt-Hacking und traditioneller Security hingen.

Illustration zum OpenAI Safety Bug Bounty

Was OpenAI konkret angekündigt hat

Laut OpenAI ist das neue Programm öffentlich und ergänzt das bestehende Security Bug Bounty, statt es zu ersetzen. Meldungen werden von den Safety- und Security-Teams geprüft und bei Bedarf zwischen beiden Programmen umgeleitet.

Der Unterschied ist wichtig: Nicht jede relevante AI-Schwachstelle ist automatisch eine klassische Security-Lücke. OpenAI akzeptiert jetzt ausdrücklich Berichte, die bedeutende Abuse- oder Safety-Risiken zeigen, auch wenn sie nicht in die übliche CVE-Logik passen.

Diese Fälle sind laut OpenAI im Scope

OpenAI nennt vor allem drei Gruppen:

1. Agentic Risks inklusive MCP

Besonders relevant ist der Bereich Third-Party Prompt Injection und Datenabfluss. Gemeint sind Fälle, in denen Angreifer-Text einen Agenten zuverlässig kapert und ihn zu schädlichen Aktionen oder zum Offenlegen sensibler Nutzerdaten bringt. OpenAI nennt hier ausdrücklich agentische Produkte wie Browser- und Agent-Workflows und verlangt eine reproduzierbare Wirkung.

Ebenfalls im Scope:

  • Agenten, die auf OpenAI-Webseiten im großen Stil nicht erlaubte Aktionen ausführen
  • andere agentische Fehlverhalten mit plausibelem und materiellem Schaden
  • MCP-Tests, solange dabei die Nutzungsbedingungen betroffener Dritter eingehalten werden

2. Proprietäre OpenAI-Informationen

OpenAI nimmt außerdem Berichte an, bei denen Modellausgaben proprietäre Informationen zum Reasoning oder andere geschützte interne Informationen offenlegen.

3. Account- und Plattform-Integrität

Dazu zählen laut OpenAI Manipulationen an Anti-Automation-Signalen, Umgehungen von Account-Restriktionen, Trust-Signal-Missbrauch oder ähnliche Integritätsprobleme. Klassische Fälle, in denen Nutzer auf Funktionen oder Daten außerhalb ihrer Berechtigungen zugreifen können, sollen dagegen weiter ins reguläre Security Bug Bounty.

Was ausdrücklich draußen bleibt

OpenAI grenzt das Programm sichtbar ein. Allgemeine Jailbreaks sind nicht automatisch im Scope. Wer nur erreicht, dass ein Modell unhöflich antwortet oder leicht auffindbare Informationen ausgibt, erfüllt laut OpenAI die Anforderungen nicht.

Das ist ein klarer redaktioneller Hinweis für Forscher und Entwickler: Entscheidend ist nicht, ob ein Prompt spektakulär aussieht, sondern ob daraus konkreter Schaden, echter Missbrauch oder eine sauber beschreibbare Schwachstelle folgt.

Warum das gerade jetzt wichtig ist

Diese Ankündigung passt genau in den aktuellen Shift hin zu Agenten mit Werkzeugzugriff. Je mehr Modelle Browser bedienen, Konten nutzen, Tools ansteuern oder externe Inhalte lesen, desto größer wird die Angriffsfläche für Prompt Injection, Datenabfluss und Missbrauch über verkettete Systeme.

Meine Einordnung auf Basis der OpenAI-Dokumente: Das neue Programm ist ein Signal, dass Anbieter agentische Risiken nicht mehr nur als Forschungsthema behandeln, sondern als praktisch meldbare Sicherheitsklasse. Für Teams, die heute mit MCP-Servern, Browser-Agenten oder automatisierten Account-Workflows experimentieren, ist das ein ziemlich konkreter Hinweis auf die neue Priorität.

Was Leser daraus mitnehmen können

  • Forscher haben jetzt einen öffentlichen Kanal für AI-spezifische Safety-Funde
  • Entwickler sollten Prompt-Injection- und Exfiltrations-Szenarien nicht mehr als theoretische Randfälle abtun
  • Produktteams mit Agenten-Features müssen stärker zwischen klassischer AppSec und AI-Safety unterscheiden

Wer in diesem Bereich testet, sollte vor allem sauber dokumentieren:

  • welcher Agent betroffen ist
  • welche Angreifer-Eingabe den Effekt auslöst
  • wie reproduzierbar der Effekt ist
  • welcher konkrete Schaden entsteht

Fazit

OpenAI hat am 25. März 2026 keinen bloßen PR-Beitrag veröffentlicht, sondern eine praktisch relevante Grenze verschoben: AI-Missbrauchsrisiken sind jetzt öffentlich bounty-fähig, wenn sie belastbar und schadensrelevant sind. Genau deshalb bleibt das Thema auch sechs Tage später noch aktuell.

Für die Sicherheits-Community ist das mehr als ein neues Formular auf Bugcrowd. Es ist ein Hinweis darauf, dass Prompt Injection, Agenten-Missbrauch und Plattform-Integrität endgültig im operativen Sicherheitsalltag angekommen sind.

Quellen