Für viele Menschen sind große KI-Sprachmodelle wie ChatGPT von OpenAI und Gemini von Google zum alltäglichen Begleiter und Assistenten geworden. Angesichts ihrer weiten Verbreitung ist es besonders wichtig, die Sicherheit der künstlichen Intelligenz zu gewährleisten. Eingebaute Werterichtlinien sollen verhindern, dass die Chatbots schädliche Inhalte ausgeben. Doch es gibt verschiedene Möglichkeiten, diese Begrenzung zu umgehen. Bei einem sogenannten Jailbreak wird das System durch speziell konstruierte Eingaben dazu gebracht, seine vorgegebenen Einschränkungen zu ignorieren. Doch auch zusätzliches Training, sogenanntes Feintuning, kann dazu führen, dass die KI Aufgaben anders ausführt, als sie es ursprünglich gelernt hat.





