Wenn wir uns mit Musik unterlegte Videoclips anschauen, hat die Musik oft einen wichtigen Einfluss darauf, wie wir das Gesehene wahrnehmen und welche Emotionen wir dabei empfinden. Die Musik kann uns fröhlich machen oder zum Weinen bringen, Spannung vermitteln oder Ruhe ausstrahlen. Klassischerweise ist die Komposition von Filmmusik die Aufgabe von darauf spezialisierten Menschen. Doch immer leistungsstärkere KI-Tools versprechen inzwischen eine einfache und schnelle Erstellung von Soundtracks, die weder menschliche Kreativität noch Expertise erfordern.
Komposition nach Schlagworten
Ein Forschungsteam um Nikolaj Fišer von der Autonomen Universität Barcelona in Spanien hat nun in einem Experiment untersucht, inwieweit KI-generierte Musik ähnliche Emotionen wecken kann wie von Menschen komponierte Stücke. Dazu zeigten sie 88 Freiwilligen 14 kurze Videoclips mit drei verschiedenen Tonspuren: von Menschen komponierte Musik, KI-generierte Musik auf Basis detaillierter Prompt-Vorgaben und KI-generierte Musik mit allgemein gehaltenen Vorgaben. Als Grundlage für die KI-generierten Stücke diente ein vorhergehender Test, in dem zehn Personen Schlagworte sowie passende Emotionen und Musikstile zu den jeweiligen Videos nannten. Daraus erstellten Fišer und sein Team mit Hilfe von ChatGPT-4 Prompts für das KI-Kompositionsprogramm „Stable Audio“.
Für den detaillierten Prompt nutzten die Forschenden umfangreiche Informationen aus dem Vortest, für den allgemein gehaltenen Prompt lediglich die dem Video zugeschriebene Hauptemotion sowie einen Zahlenwert für das gewünschte Erregungslevel. Die von Menschen komponierten Stücke stammten aus einer Datenbank mit Film-Soundtracks. Die Aufgabe, zu den Videoclips passende Stücke aus der Datenbank auszuwählen, überließen die Forschenden ChatGPT-4. „Trotz der Verwendung von KI für die Auswahl der Soundtracks wurden die Soundtracks selbst alle von Menschen gemacht und speziell für Filme komponiert“, betont das Forschungsteam.
Emotional aufregender, aber weniger vertraut
Die Videoclips waren abgesehen von der Musik in allen Fällen die gleichen und stammten aus einer Vielzahl von Genres, von Naturaufnahmen bis hin zu Horrorfilmen. Nach jedem Video gaben die Testpersonen an, welche und wie starke Emotionen sie beim Anschauen empfanden und wie vertraut ihnen die Musik erschien. Zusätzlich maßen die Forschenden physiologische Parameter wie die Pupillenweitung, die Blinzelrate und die Hautleitfähigkeit, um auf emotionale Erregung und Konzentration zu schließen.
Das Ergebnis: Beide KI-generierten Musikvarianten lösten bei den Probanden eine stärkere Pupillenerweiterung aus als die menschengemachte Variante – ein Hinweis auf höhere emotionale Erregung. Auch in der anschließenden Befragung bewerteten die Probanden die KI-generierten Stücke als aufregender. Bei den KI-Stücken mit detaillierten Prompts blinzelten die Testpersonen zudem häufiger und ihre Hautleitfähigkeit war erhöht, was auf eine höhere kognitive Belastung hindeutet. Zugleich empfanden die Testpersonen diese Musik als besonders passend zu den Videoclips. „Dagegen wurde der von Menschen komponierte Soundtrack als vertrauter empfunden als beide KI-generierten Versionen“, berichtet das Team.





