Künstliche Intelligenz in der Musik: Gefürchtet, verharmlost, verteufelt – Teil 1

18. September 202427. November 2023

Künstliche Intelligenz verändert die Berufswelt, auch die von Musikschaffenden. Aber was haben Musikschaffende von KI zu befürchten? Wird KI ihre Werke verwenden, ohne dafür zahlen zu müssen? Wird KI sie gar ersetzen, ihre Kunst entwerten? Und: Was passiert mit Werken, die mittels KI erstellt wurden? Genießen sie urheberrechtlichen Schutz? Der Versuch einer Annäherung an ein komplexes Phänomen, das alle Musikschaffende in den kommenden Jahren intensiv beschäftigen wird. Markus Deisenberger geht diesen Fragen in unserer dreiteiligen Serie aus unterschiedlichen Perspektiven nach – hier ist Teil 1 mit einem von KI erstellten Kochbuch, das Improvisieren mit KI und den beinahe zwanghaften Lösungsdrang der trainierten Maschinen.

„Wenn KI die Zukunft der Musik ist, brauchen wir bessere Drogen“, hat Damon Alban von Blur neulich in einem Interview gemeint, und sein Spruch war nur einer von vielen zu diesem Thema. Die Diskussion über den Einsatz künstlicher Intelligenz in der Kunst- und Medienwelt hat längst die gesellschaftliche Mitte erreicht, und die Situation erinnert ein wenig an die Pandemie. Nicht nur scheint beinahe jede:r eine Meinung dazu zu haben, die geäußerten Ansichten pendeln auch ähnlich wie damals zwischen Panikmache und Verharmlosung.

Beispiel gefällig? Der Historiker und Bestsellerautor Yuval Harari etwa glaubt, die neue Technologie könnte die Grundlagen unserer Zivilisation zerstören. KI werde uns schlimmer treffen als der Klimawandel, sagt er. Demgegenüber vertrat Hannes Eder, der ehemalige General Manager von Universal Austria, neulich in einem Standard-Interview (in Zusammenhang mit dem Fake-Song von Drake, der die Medien damals beschäftigte) die Auffassung, dass man deswegen (noch) nicht hysterisch werden müsse. Der Song sei schließlich von den Plattformen genommen worden und berauschende Streaming-Zahlen habe er auch nicht erzielt. Musikkonzerne würden darüber hinaus Anteile an Streaming-Plattformen halten. Insofern müsse man sich um originäre Musik auch weiterhin keine Sorgen machen, so Eder. Und Geld werde wohl auch weiterhin noch ein wenig die Welt regieren.

Stimmt. Geld wird wohl weiterhin die Welt regieren. Was aber, wenn sich mit KI-generierter Musik einfach mehr Geld verdienen lässt und es dem Publikum – oder sagen wir: großen Teilen des Publikums – egal ist, ob sie eine echte oder eine Fake-Version vorgesetzt bekommen? Welche Reaktion auf die jüngsten Entwicklungen ist also angebracht? Eders Entspanntheit oder Hararis Angst? Die ersten Fragen wären also: Wie weit ist die KI? Was kann sie? Und wie austauschbar kann sie uns Menschen angesichts ihres Könnens erscheinen lassen?

Künstliche Intelligenz, Transparenz und 99 Pasta-Gerichte – mit Vorsicht zu genießen

Genau darüber, über die gewaltigen Möglichkeiten von künstlicher Intelligenz, aber auch über ihre Grenzen, habe ich mich mit Siegfried Handschuh, Professor für Informatik an der Universität St.Gallen in der Schweiz, unterhalten, wo er sich vor allem mit Natural Language Processing (NLP), also der Verarbeitung natürlicher Sprache durch Computer, beschäftigt. Die angepriesene Fähigkeit von ChatGPT (einem Chatbot, der Künstliche Intelligenz einsetzt, um mit Nutzer:innen über textbasierte Nachrichten und Bilder zu kommunizieren), Sonette im Stile von Shakespeare verfassen zu können, beurteilt er sehr zurückhaltend: „Es kann sehr gut Stil und Struktur nachahmen, aber die kreative Genialität und das menschliche Verständnis, das Shakespeare hatte, hat das System nicht. Es funktioniert ja nach Statistik, liefert die wahrscheinlichste Antwort auf eine Frage. Das Wahrscheinlichste ist aber auch vorhersehbar. Und das Interessante ist ja eher unvorhersehbar und ungewöhnlich.“

Bezüglich meines Jobs als Journalist, so Handschuh, brauche ich mir keine allzu großen Sorgen zu machen, denn „was viel Erfahrung, Einfühlungsvermögen und vielleicht auch Genialität erfordert, kann nur schlecht simuliert werden.“ Das heißt: Durchschnittliche PR-Artikel werden sich Firmen in Zukunft vielleicht inhouse durch KI erledigen können, denn ganz generell, so Handschuh, werde man Leute, die sonst keine Texte hinbekommen, in die Lage versetzen können, brauchbare Artikel zu schreiben. Aber ein:e Journalist:in, der:die Leitartikel schreibt oder sich mit jemandem über künstlerische Intelligenz unterhält, sei so schnell nicht ersetzbar.„Ich gehe davon aus, dass Assistent:innen zu ersetzen sein werden. Der Anwalt bzw. die Anwältin selbst nicht so schnell“, so Handschuh.
Ob diese Aussagen den jüngsten Entwicklungen standhalten? Beim Kölner Boulevardblatt Express wird neuerdings eine KI-Journalistin beschäftigt bzw. wird der Name Klara Indernach (kurz: KI) für Texte eingesetzt, die mit Hilfe Künstlicher Intelligenz erstellt wurden. „Wenn Artikel zu einem großen Teil mit Hilfe von KI generiert wurden, markieren wir sie entsprechend“, so die Redaktion. Vor Veröffentlichung würden sie redaktionell natürlich bearbeitet und geprüft, heißt es weiter. Wenigstens transparent, denkt man unweigerlich, denn wir erinnern uns an ein vom Burda-Verlag im vergangenen Mai herausgebrachtes Kochbuch mit 99 Pasta-Rezepten. Wie die SZ recherchierte, war das komplette Heft von KI erzeugt worden, inklusive der Bilder von der Nudelgerichte. Die Leser:innen wurden über all das allerdings nicht informiert.

Klar, bei der Auswertung von großen Datenmengen kann sich KI als hilfreich erweisen, was unter anderem im investigativen Journalismus von Bedeutung sein kann. Im besten Fall also ermöglichen KI-Tools effizientere Arbeit und machen Zeit für Recherchen frei. Aber natürlich können, wann immer KI-Inhalte generiert werden, auch Fehler passieren. Klara Indernachs Texte seien daher mit Vorsicht zu genießen, schrieb die SZ. Das stimmt wohl insoweit, als immer ein Mensch KI-erstellte Inhalte auf ihre faktische Korrektheit kontrollieren sollte, ist aber auch ein wenig unfair, weil Klara Indernach bzw. dem System meines Wissens bislang keine groben Fehler nachgewiesen wurden. Und: Auch die Texte vieler menschlicher Journalist:innen sind „mit Vorsicht zu genießen“.

Aber Indernachs Texte sind – wenn wir uns an das erinnern, was Siegfried Handschuh gesagt hat – weder einfache PR, noch sonst irgendwie primitiv, was die Vermutung nahelegt, dass die Entwicklung schneller voranschreitet, als uns das allen vielleicht lieb sein kann.

So stellte ein Medienunternehmen in Kuwait unlängst seine erste virtuelle Nachrichtensprecherin vor, die mit künstlicher Intelligenz arbeitet. Die KI-Moderatorin mit dem Namen „Fedha“ gab ihr Debüt auf dem Twitter-Account von Kuwait News. Und auch der ORF arbeitet am Einsatz von künstlicher Intelligenz in seinen Redaktionen, etwa am Einsatz eines „AIDitors“ (Artificial Intelligence Editor), der aus vorhandenem journalistisch erstellten Material Social-Media-Posts erstellt.

Und in der Musik? Wie verhält es sich da? Was dabei herauskam, als man ChatGPT aufforderte, einen Song im Stile von Nick Cave zu komponieren, ist hinlänglich bekannt, die Reaktion Caves auf das dürftige Elaborat ebenso. Das Ergebnis sei „Bullshit“ und „eine groteske Verhöhnung dessen, was es heißt, ein Mensch zu sein“, ließ sich der berühmte Singer-Songwriter vernehmen. Siegfried Handschuh kann Caves erboste Reaktion nachvollziehen. „Ich würde wahrscheinlich auch so reagieren, wenn jemand versucht, meine Arbeit zu kopieren“, so der Schweizer Forscher. „Das System produziert Texte, die gewisse Stilelemente seiner Lyrik aufweisen, sie haben jedoch bei weitem nicht das Potenzial der Originale.“ So weit so gut. Entwarnung also? Cave und alle anderen Textdichter brauchen sich keine allzu großen Sorgen zu machen? Mitnichten, denn Handschuh weist ausdrücklich darauf hin, dass es sich bei KI um generalistische Systeme handelt. „Wenn ich das System nur auf Lieder von Nick Cave oder Pop-Songs an sich trainieren würde, sähe es vielleicht anders aus.“ Würde ich also einen Chatbot nur mit Indie- und Alternative-Musik der letzten dreißig Jahre füttern, würde er sehr wahrscheinlich zu einem Ergebnis kommen, das Cave nicht als Verhöhnung empfinden würde, das ihn vielleicht sogar staunen machen würde. „Außerdem schreitet die Entwicklung exponentiell voran“, weiß Handschuh. Das heißt: Während wir noch darüber lachen, dass die Maschine in ihrer Kopie irgendeiner Kunstgattung noch Mittelmaß ist, ist längst eine neue, verbesserte Version der Maschine am Start. Das macht die Bewertung der heutigen Qualität einer KI unter Umständen schon morgen obsolet. „Und es gibt Genres“, sagt Handschuh, „in denen es von vorneherein besser funktioniert.“ „Schlager etwa?“, frage ich. „Genau. Das wäre einen Versuch wert.“

Emotionale Maschinen und ihr fast zwanghafter Lösungsdrang

Aber auch eine weitere Tatsache gilt es zu berücksichtigen: „In den alten Science-Fiction-Filmen gab es immer Figuren wie Spock oder Data, die alles völlig rational erklärten und am Emotionalen, Assoziativen scheiterten“, erzählt Handschuh. „Umgekehrt fallen logisches Denken und Mathematik dem Durchschnittsmenschen eher schwer. Verallgemeinerungen, Muster erkennen, das Assoziative – das liegt uns, das ist leicht für uns.“ Worauf er hinauswill, ist: Es gab immer diese klare, althergebrachte Trennlinie zwischen dem Reich der Mathematik und Logik einerseits, das der Maschine gut zugänglich ist, und dem der Kreativität und Intuition andererseits, mit dem sie sich schwer tut. Das habe sich grundlegend geändert, so Handschuh, denn „diese Chatbots sind sehr gut im Assoziativen. Sie sind gut darin, Dinge zu erfinden, wenn sie keine Infos haben. Das heißt nicht, dass wir schon dort sind, aber wir sind auf dem richtigen Weg, eine wirklich starke KI zu schaffen. In zehn, fünfzehn Jahren werden wir ungefähr die tausendfache Rechenleistung zur Verfügung haben.“ Dann könne er sich schon vorstellen, „dass wir einmal so etwas wie ein digitales Bewusstsein bekommen. Und je größer die Systeme werden, desto mehr entwickeln sie Eigenschaften, mit denen wir nicht gerechnet haben. Sie reagieren auf die Eingaben viel stärker als wir erwartet haben.“

Diese Reaktion nennt man übrigens „Few Shot Learning“. Die Maschine entwickelt einen fast zwanghaften Lösungsdrang, wenn sich ihr eine Lücke auftut, was vielen aus den Medien und vielleicht auch aus Selbstversuchen mit ChatGPT bekannt sein dürfte. Einen Vortrag zu einem bestimmten Thema oder auch Literaturlisten sollte man immer genau kontrollieren, denn mitunter erfindet die Maschine einfach etwas; sie schließt die Lücke, die sie erkannt hat, phantasievoll oder eigenmächtig – je nachdem, wie man das interpretieren möchte.

Während Siegfried Handschuh und ich miteinander telefonieren, lässt er, weil er gehört hat, dass ich einen Kriminalroman geschrieben habe, ChatGPT nach Krimi-Plots für mein nächstes Buch suchen. Das Ergebnis, das er mir gegen Ende unseres Gesprächs präsentiert, frappiert mich, denn ein paar Plots sind zwar an den Haaren herbeigezogen oder zwangsoriginell, andere aber klingen spannend, wären es durchaus wert, weiterverfolgt zu werden. Es ließe sich darauf aufbauend tatsächlich eine interessante Geschichte entwickeln.

Irgendwie widerspricht das dem, was Handschuh eingangs über das Potenzial der derzeitigen KI-Systeme gesagt hat, denn: KI kann bei weitem nicht nur als mittelmäßige Assistentin herangezogen werden, sondern ist durchaus auch als kreative Ideengeberin einsetzbar.

Angst vor Entmündigung

Klingt faszinierend und nach einem Versprechen für die Zukunft. Warum sind dann, wie das Ergebnis einer aktuellen repräsentativen Umfrage belegt, etwa 40 Prozent der Deutschen der Meinung, dass künstliche Intelligenz in den nächsten zehn Jahren unter dem Strich negative Folgen haben wird? Weitere knapp 40 Prozent erwarten gemischte Auswirkungen. An einen „positiven Einfluss auf die Welt“ glauben gar nur 14 Prozent.

Vor einigen Jahren schon habe ich die deutsche KI-Koryphäe Sepp Hochreiter, der an der Johannes Kepler Universität Linz das Institute for Machine Learning und das Artificial Intelligence Lab leitet, in einem Interview gefragt, woher er glaubt, dass die weitverbreitete Angst vor der KI herrührt? Sind es die filmischen Dystopien aus Hollywood, die die Angst schüren, Maschinen könnten uns irgendwann den Rang ablaufen?

„Da überlagern sich mehrere Ängste“, meinte er damals. „Erst mal hat der Mensch Angst vor allem Neuen. Dann hat er Angst vor Dingen, die er nicht versteht. Dazu kommt die Angst, dass man entmündigt wird. Der Computer merkt, dass ich Rechtschreibfehler mache, dass ich in manchen Bereichen unzulänglich bin. Schließlich gibt es noch die Angst vor Überwachung und dass Entscheidungen nicht mehr nach menschlichen Gesichtspunkten gefällt werden.“ Das Absurde aber sei, dass die meisten Menschen Politiker:innen, und seien sie auch noch so dumm und ahnungslos, eher als einer Maschine vertrauen, die eine rationale Entscheidung trifft, so Hochreiter. „Und jetzt kommt noch eine Facette dazu: Die von Filmen wie ‚Matrix‘ geschürte Angst, die Maschinen könnten die Welt übernehmen und uns Menschen als Batterien benutzen, was völliger Humbug ist. Warum? Weil es jetzt schon bessere Batterien gibt als Menschen.“

„Halten Sie die natürliche Dummheit also für gefährlicher als künstliche Intelligenz?“, habe ich ihn daraufhin gefragt. Seine Antwort: „Auf jeden Fall. Am gefährlichsten aber ist, wenn dumme Menschen sehr intelligente Maschinen benutzen. Der dumme Mensch etwa, der seine Rakete mit KI ausgestattet hat und daher zielgenau treffen kann …“ Erst die Verbindung von KI und menschlicher Dummheit ergebe einen wirklich gefährlichen Cocktail.

Westlich konnotiert

Zurück zur Musik. Damit, was KI für die Musikproduktion bedeuten kann, hat sich die Wiener Musikerin Sharmien Zandi intensiv auseinandergesetzt. Als sie zum ersten Mal hörte, was ein Datensatz bedeutet, sei das überwältigend gewesen, erzählt sie. Sofort entwickelte sie einen großen Forschungsdrang. „KI muss doch auch irgendetwas mit Musik zu tun haben, nicht nur mit Bild“, war ihr erster Ansatz. Über ein Startstipendium der Stadt Wien bekam sie schließlich die Möglichkeit, sich im Rahmen eines Projekts mit dem Thema intensiver auseinanderzusetzen. In ihrem Projekt erforschte sie, welche Plattformen es derzeit gibt, was den Musker:innen zur Verfügung steht und welche Ergebnisse sich damit generieren lassen.

„Mir ging es darum, einen Zugang zu bekommen, zu erfahren, welche Datensätze es gibt, wie sie verwendet werden und ein besseres Bewusstsein für diese Technologie zu entwickeln.“ Als sie anfing, gab es nur eine Musik zu Musik generierende Maschine, erzählt sie, „aber noch keine Möglichkeit, Text zur Musik zu entwickeln.“ Das kam erst später. Und anfangs seien die Parameter auch noch sehr einfach gewesen, mittlerweile habe sich das durch die fortschreitende Entwicklung ehr spezialisiert, so Zandi. Ihr Eindruck: „Das ist noch sehr westlich konnotiert.“ Arabische Musik etwa sei kaum vorhanden, dafür seien Heavy, Rock, Pop und Jazz sehr stark vertreten. Man merke daher schnell, welche Datensätze dahinterstehen. Und der große Unterschied zum visuellen Bereich: „Viel Überraschung passiert nicht.“ Und manches, etwa Stille, könne die Maschine gar nicht generieren. (Man darf daher umso gespannter auf ihr nächstes Projekt „Silents and AI“ gespannt sein.) Eine der ersten Fragen, die sie sich stellte, war: „Woher haben die ihre Datensätze und warum muss ich dafür zahlen, wenn gar nicht klar ist, woher Datensätze stammen?“ Eine so spannende wie berechtigte Frage, auf die wir noch zurückkommen werden. Ihr Ansatz für „the real digital piano“ war dann denkbar einfach: Sie setze sich ans Klavier und improvisierte. „Mir ging es darum, den Prozess zu verstehen. Dann macht die KI aus den Improvisationen irgendetwas.“ In einem weiteren Schritt versuchte sie dann gemeinsam mit der KI eine Partitur zu erarbeiten. Auch ihre diesbezügliche Frage: „Bin jetzt ich der:die Urheber:in oder die KI?“ ist eine Frage, auf die wir noch zurückkommen werden.

Ihre Forschungsergebnisse, darunter auch die Videos „Love against the machine“ und „Fuck me amadeus“ kann man auf ihrer Webseite einsehen. Ihr eigenes Resümee: „So cool, dass ich denke, ich hätte das neueste One-Hit-Wonder geschaffen, waren die Ergebnisse nicht.“ Objektiv betrachtet mag das schon sein, so hölzern und nicht ganz ausgegoren da manches auch noch klingen mag. Gerade für den Bereich der elektronischen Musik im Bereich Techno und Dance beschleicht einen da schon das Gefühl, dass es vielleicht noch nicht heute, aber schon sehr bald durch genaueres Prompten und besseres Produzieren eine Revolution geben könnte, dass vielleicht in absehbarer Zeit die Maschinen den Beat vorgeben werden, oder das wirkliche Gemeinsame zwischen Mensch und Maschine, wie es der Band Kraftwerk einst in einer romantisierenden Form vorschwebte, Wirklichkeit werden könnte. Im Jazz gibt es schon jetzt eine ganze Reihe von Musikprojekten, in denen Musiker:innen mit KI in improvisatorische Wechselwirkung treten.

Markus Deisenberger

Links:
KÜNSTLICHE INTELLIGENZ IN DER MUSIK: GEFÜRCHTET, VERHARMLOST, VERTEUFELT – TEIL 2
KÜNSTLICHE INTELLIGENZ IN DER MUSIK: GEFÜRCHTET, VERHARMLOST, VERTEUFELT – TEIL 3