Audioforensik: Falschen Tönen auf der Spur - wissenschaft.de | Bild der Wissenschaft
BDW PlusTechnik & Digitales
Falschen Tönen auf der Spur
Solche Bilder sind inzwischen so gut, dass sie Realitäten verzerren können“, warnte Martin Steinebach, Leiter der Abteilung Mediensicherheit und IT-Forensik am Darmstädter Fraunhofer-Institut für Sichere Informationstechnologie SIT, im Juni 2024 in Bild der Wissenschaft. Der Anlass seiner Mahnung war ein gefälschtes…
Sie haben noch 2 von 3 kostenlosen Artikeln übrig1/3
von NIKOLAUS FECHT
Solche Bilder sind inzwischen so gut, dass sie Realitäten verzerren können“, warnte Martin Steinebach, Leiter der Abteilung Mediensicherheit und IT-Forensik am Darmstädter Fraunhofer-Institut für Sichere Informationstechnologie SIT, im Juni 2024 in Bild der Wissenschaft. Der Anlass seiner Mahnung war ein gefälschtes Video, das angeblich den ukrainischen Präsidenten Wolodymyr Selenskyj im März 2022 dabei zeigt, wie er seine Soldaten aufforderte, die Waffen niederzulegen – ein sogenannter Deepfake, der für politische Irritationen sorgte.
Doch digitale Manipulationen lassen sich mithilfe der Medienforensik entlarven. Diese Aufgabe übernahm unter anderem das Europäische Netzwerk forensischer Institute (ENFSI), das mehr als 70 forensische und akademische Institutionen aus ganz Europa vereint. Es vernetzt nicht nur Strafverfolgungsbehörden untereinander, sondern schafft auch Verbindungen zwischen diesen und Forschungsorganisationen, akademischen Einrichtungen sowie der Industrie. Das Netzwerk spielt daher in der Europäischen Union eine entscheidende Rolle bei der Standardisierung von Verfahren, der Verbesserung der Qualität und Zuverlässigkeit forensischer Beweismittel sowie der Unterstützung des Strafrechtssystems.
Ein wichtiger Teil der Forschung dazu findet am Fraunhofer-Institut für Digitale Medientechnologie IDMT im thüringischen Ilmenau statt. Dort leitet seit November 2023 Luca Cuccovillo die ENFSI-Arbeitsgruppe „Forensische Sprach- und Audioanalyse“ (FSAA). Sie unterstützt europaweit die Forschungsaktivitäten im Bereich der sogenannten forensischen Audioanalyse – der Untersuchung von Tonaufnahmen auf möglicherweise strafbare Manipulationen. Dafür entwickelt das Forscherteam um den gebürtigen Italiener Lösungen und neue Techniken. Cuccovillo gilt als ausgewiesener Audioforensik-Spezialist mit besonderer Expertise für die Analyse von Bearbeitungsspuren und das Erkennen von nachträglichen Bearbeitungen in Audiomaterial.
Audiodaten auf Stimmigkeit prüfen
Ein vorrangiges Ziel der Audioforensik ist es, die Echtheit von Tonaufnahmen zu überprüfen und Manipulationen oder Fälschungen zu erkennen. Dazu analysieren die Forscher natürliche Merkmale einer Tonaufnahme – zum Beispiel Hintergrundgeräusche, Störungen oder die speziellen Eigenschaften des Mikrofons – daraufhin, ob sie zueinander passen und in ihrer Gesamtheit stimmig sind. Typische Anwendungen solcher Analysen sind die Überprüfung von Beweismaterial in Gerichtsverfahren, das Entlarven von gefälschten Aussagen in online verbreiteten Nachrichten sowie das Aufdecken digitaler Fälschungen. Ein Ziel der Forscher am Fraunhofer IDMT ist es, eine Palette an Werkzeugen zu schaffen, mit deren Hilfe sich verdächtige Tonspuren erkennen und auswerten lassen.
Mehr aus Technik & Digitales
Weitere aktuelle Artikel aus der Rubrik Technik & Digitales.
Doch die Methode der Audioforensik lässt sich nicht nur bei reinen Tonaufnahmen anwenden, sondern auch zur Untersuchung von Videoclips, die etwa Mitschnitte von Gesprächen oder Veranstaltungen oder politische Appelle zeigen sollen. In Filmaufnahmen lassen sich Fälschungen wie Selenskyjs vermeintlicher Aufruf zur Kapitulation seiner Truppen sogar besonders leicht entlarven. „Es ist deutlich einfacher, eine Manipulation zu erkennen, wenn sowohl Video- als auch Audiodaten vorliegen“, erläutert Cuccovillo. Denn mit mehr Modalitäten wie Tönen und bewegten Bildern haben die Forscher auch mehr Möglichkeiten, Informationen zu überprüfen und sogenannte Kreuzvergleiche anzustellen. Dabei gilt jedoch: „Die Audiodaten tragen oft die Hauptinformation und können auch ohne das visuelle Element auskommen. Das visuelle Element hingegen kann ohne Audio oft nicht bestehen.“
Daher ist die Audioforensik in Ilmenau der zentrale Bestandteil der breiter angelegten Medienforensik. Den Forschern geht es dabei vor allem um die Entwicklung von Verfahren zum Erkennen von Fälschungen digitaler Inhalte für Journalismus, Medienplattformen und Ermittlungsbehörden.
Drei Formen von Fälschungen
Dabei stehen vor allem drei unterschiedliche Formen von Fälschungen im Fokus: die Veränderung von bestehendem Material (Manipulation), die Verwendung von Inhalten in einem irreführenden oder falschen Zusammenhang (Dekontextualisierung) sowie die komplette Erstellung von neuen, synthetischen Inhalten (Fabrikation). Ein besonderes Problem besteht darin, dass Audio-Fälschungen oft Kombinationen von mehreren Inhalten und Manipulationsformen sind.
Deshalb entwickelt das Team am Fraunhofer IDMT auch Verfahren zur Herkunftsanalyse wie die „Audio Reuse Detection“, mit der sich erkennen lässt, ob ein Audioclip ganz oder teilweise in einem anderen Zusammenhang wiederverwendet wurde. Durch den Vergleich der Audiodaten mit einem Datensatz bekannter Aufnahmen lassen sich Manipulationen wie das Herausschneiden oder Einfügen von Tonsegmenten aufdecken.
Putin-Parolen beim Fußballspiel?
Ein Beispiel vom 17. Juni 2024: Ein in sozialen Medien verbreitetes Video behauptete, dass rumänische Fans während des Spiels der Fußball-Europameisterschaft ihrer Mannschaft gegen die Ukraine „Putin“ gerufen hätten. Doch die Audiodetektive aus Ilmenau stellten im Auftrag der Deutschen Presseagentur dpa fest, dass die als Beleg angeführte Tonspur des Videos nachträglich manipuliert wurde. Eine Analyse der Fraunhofer-Forscher am IDMT zeigt, dass sich bestimmte Audioabschnitte wiederholen, was unnatürlich ist und auf eine Fälschung hindeutet. Zudem ergaben sich bei der Analyse Hinweise darauf, dass Material aus verschiedenen Quellen gemischt wurde. Weder in der Originalaufnahme des Spiels noch bei der Polizei waren entsprechende Rufe festgestellt worden.
Die Audioforensik-Forscher aus Thüringen gehen nach einer an etlichen Beispielen erfolgreich erprobten Methodik vor. „Unsere Werkzeuge untersuchen die Inhalte auf natürliche Aufnahmespuren, die etwa durch Umgebungseinflüsse, Aufnahmegerät und Codierung entstehen, sowie auf Spuren einer nachträglichen Bearbeitung“, erklärt Patrick Aichroth, der am Fraunhofer IDMT die Forschungsgruppe Media Distribution and Security leitet, in der auch Luca Cuccovillo arbeitet. Er nennt eine typische Frage: „Stammt die Audiodatei aus einem bestimmten Gerät?“ Das lässt sich durch das Klassifizieren von Mikrofonen überprüfen. Codierungsspuren bieten ebenfalls Hinweise: Wurde eine Audiodatei schon einmal codiert, und falls ja, mit welchem Codec und welcher Bitrate?
Der Schwerpunkt liegt jedoch auf einer Editierung: „Wir analysieren, ob etwas geschnitten oder eingefügt wurde und wo genau dies geschah“, sagt Aichroth. Als Beispiel beschreibt er ein Video der Pressestelle vom Weißen Haus in den USA, das später plötzlich auch auf der Online-Plattform X (ehemals Twitter) auftauchte. Auf den ersten Blick glich es dem Original, aber die akribische Audioanalyse bewies, dass jemand Sätze entfernt und die Reihenfolge der Tonaufnahmen geändert hatte. Ein wichtiger Aspekt bei solchen Analysen ist es, zwischen absichtlichen Manipulationen wie dem Erstellen von Fakes und unbeabsichtigten Bearbeitungen wie dem Entfernen von irrelevanten Abschnitten oder dem Schutz von Informationsquellen zu unterscheiden.
Zwei verschiedene Herangehensweisen
Grundsätzlich gibt es zwei Wege, um manipulierte Audiodateien zu erkennen. „Bei der Authentifizierung wird über digitale Signaturen geprüft, ob der Inhalt verändert wurde“, erläutert Aichroth. Die Herausforderung besteht darin, dass diese Signaturen bei der Aufnahme sicher integriert wurden. Gab es jedoch Veränderungen im Produktionsprozess, müssen die Signaturen erneuert werden. Aber das funktioniert nicht immer. Die Alternative ist die Falsifizierung: Die Fachleute aus Ilmenau überprüfen dazu, ob Angaben zum Aufnahmegerät, zum Aufnahmeort sowie zum Zeitpunkt der Aufnahme mit den Spuren in der Audiodatei übereinstimmen. Ein konkretes Beispiel ist die Analyse von Tonaufnahmen, bei denen Audioforensiker Unregelmäßigkeiten in den Aufnahmespuren entdecken, etwa Hinweise auf Schnitte oder eine Synthese. „Unsere Tools können unter bestimmten Bedingungen erkennen, wie Inhalte ursprünglich codiert wurden und ob Material unterschiedlicher Codierung zusammengeschnitten wurde“, stellt Fraunhofer-Forscher Patrick Aichroth fest.
Die Audioforensik-Experten in Ilmenau entwickeln durch die Kombination dieser Techniken einen Werkzeugkasten, mit dem sich Manipulationen, künstlich erzeugte Inhalte und die Herkunft von Audiodateien aufspüren lassen. Er kommt aber nur dann zum Einsatz, wenn die Anwender von der Verlässlichkeit der Methoden und Werkzeuge überzeugt sind. „Wir müssen deshalb möglichst vertrauenswürdige Analysewerkzeuge schaffen, die sowohl Journalisten als auch Strafverfolgungsbehörden nutzen können“, betont Luca Cuccovillo. Besonders wichtig sei, dass die Methoden transparent und erklärbar sind.
Vertrauen entstehe durch nachvollziehbare Ergebnisse, die nicht einfach nur maschinell, sondern durch menschliche Überprüfung ergänzt werden, meint der Forscher. „Ein Anliegen ist für uns, bei unseren Analysen auch Verzerrungen, die durch menschliche Schwächen wie den sogenannten Confirmation Bias entstehen könnten, zu minimieren“, ergänzt Patrick Aichroth. „Das erreichen wir durch eine strenge Trennung von technischen Analysen und dem Wissen um die beteiligten externen Akteure.
Neue Möglichkeiten beim Stimmenvergleich
Das Thema Vertrauen betrifft vor allem das neue Hype-Thema der Künstlichen Intelligenz (KI). Die lässt sich nicht nur zum Fälschen nutzen. In der Audioforensik kommt KI bereits seit einigen Jahren auch zum Einsatz, um festzustellen, ob die Stimme in einer Aufnahme zu einem Verdächtigen gehört oder nicht. „Der Grund dafür ist, dass die Experten für den forensischen Stimmenvergleich die Tools an ihren eigenen Daten testen konnten“, erläutert Cuccovillo. „Dabei haben sie festgestellt, dass die Genauigkeit der neuen Tools besser war als die der bislang verwendeten Methoden.“ Eine ähnliche Entwicklung wie beim Stimmenvergleich erwartet der Audioforensik-Forscher auch für andere Anwendungen von Tonanalysen: „Neue Analysewerkzeuge, die auf Künstlicher Intelligenz und dem Verfahren des Deep Learning basieren, werden eine entscheidende Rolle spielen, sobald sie von ausreichender Qualität sind, um Stresstests und Validierungen zu bestehen.“
Ein Gutachten vor Gericht
Analysetools aus Thüringen kamen bereits in der Praxis zum Einsatz: etwa im Fall des Hamburger Unternehmers Alexander Falk. Er wurde wegen des Verdachts der Anstiftung zum Mord und zu gefährlicher Körperverletzung angeklagt. Dabei ging es um das Attentat auf einen Rechtsanwalt, der 2010 angeschossen worden ist – nach Überzeugung der Staatsanwaltschaft auf Geheiß von Falk. In dem Prozess, der im August 2019 am Landgericht Frankfurt am Main begann, erstellten Forscher des Fraunhofer IDMT ein Gutachten, für das sie Tonaufnahmen analysierten, die die Anstiftung belegen sollten. Es ging um die Frage der Echtheit eines aufgezeichneten Telefonats. Die Einschätzung der Forscher trug dazu bei, dass Alexander Falk zu einer Haftstrafe verurteilt wurde.
Das Risiko künstlich erzeugter Sprachinhalte wächst. So warnten 2023 unter anderem Europol, NSA und FBI in einem gemeinsamen Bericht vor den Gefahren von synthetischen Medien, die sich gezielt für Desinformation und Cyberkriminalität nutzen ließen. Während Künstliche Intelligenz bei dem Gutachten 2019 noch keine Rolle spielte, steht sie nun im Fokus von Forschungsprojekten wie speechtrust+, an dem sich das Team in Ilmenau seit 2022 beteiligt. Das Ziel ist es, KI gegen KI einzusetzen.
„KI-basierte Sprachsynthese wird schon bald in der Lage sein, menschliche Sprache in so guter Qualität zu generieren, dass sie nicht mehr von natürlicher Sprache zu unterscheiden ist – eine Form von Deepfakes“, sagt Cuccovillo. „Künftig wird es, wenn es keine geeigneten Gegenmaßnahmen gibt, möglich sein, Personen beliebige Botschaften in den Mund zu legen. Um den Missbrauch von Audio-Deepfakes zu verhindern und synthetisch generierte Sprache zu detektieren, ist unsere Forschung von entscheidender Bedeutung!“
Zusammen unter anderem mit den Landeskriminalämtern Bayern und Baden-Württemberg entwickeln die IDMT-Forscher im Rahmen von speechtrust+ Programme, um künstlich erzeugte oder veränderte Sprache zuverlässig zu erkennen. Die Software kombiniert Künstliche Intelligenz mit erprobten Techniken der Audioforensik. Am Ende soll daraus eine benutzerfreundliche Toolbox hervorgehen, die sich nicht nur bei der Spracherkennung, sondern auch zum Verhindern von Straftaten nutzen lässt.
Die Ilmenauer präsentierten 2024 eine Methode, um die Erkennung synthetisch erzeugter Sprache besser verständlich zu machen. Sie nutzten dabei ein KI-basiertes Verfahren, das nicht nur merkt, wann in einer Aufnahme künstliche Sprache verwendet wurde. Es gibt auch an, wie wahrscheinlich es ist, dass dabei Fehler auftreten.
Sinngemäß könnte ein Ergebnis lauten: „Es ist zehnmal wahrscheinlicher, dass die Sprache synthetisch ist, als dass sie natürlich entstand.“ Die Aussage präzisiert eine Fehlerquote zur Genauigkeit und Verlässlichkeit der Analyse. Dieses sogenannte Log Likelihood Ratio (LLR)-Prinzip nutzen forensische Labore etwa zum Bewerten von DNA-Tests. Nun soll sich das Prinzip auch in der Praxis bewähren: „Wir haben dazu Audioforensik-Tools in die Verifikationsplattform ‚Truly Media‘ der Deutschen Welle (dw.com) integriert, um Journalisten beim Prüfen von Inhalten zu unterstützen“, berichtet Patrick Aichroth. „Diese Palette an Werkzeugen wollen wir kontinuierlich erweitern.“
Menschen orientieren sich bei Entscheidungen an den Erfahrungen anderer. Dieses als „Social Proof“ bekannte psychologische Phänomen…
Technik & Digitales
Künstliche Intelligenz: Umwelt-Fußabdruck größer als gedacht?
3. Juni 2026
Der KI-Boom bringt immer leistungsstärkere KI-Modelle hervor, immer mehr Menschen nutzen die Technologie. Einem neuen Bericht zufolge…
BDW PlusTechnik & Digitales
Wie Roboter für das Leben lernen
2. Juni 2026
Damit Roboter sinnvoll handeln können, reicht es nicht, Texte und Bilder aus dem Internet zu nutzen. KI-Roboter brauchen außerdem perfekte…