KI in der Musikindustrie – Teil 12: Googles Magenta Studios und das WaveNet

Ein weiteres Unternehmen, das an vorderster Front der KI-Forschung agiert und den Übergang von der Artificial Narrow Intelligence (ANI) zur Artificial General Intelligence (AGI) vorantreibt, ist Google bzw. dessen Muttergesellschaft Alphabet. Vor allem beim KI-generierten Musikschaffen hat Google mit den Magenta Studios frühe KI-Anwendungen geschaffen, die schließlich mit dem von DeepMind entwickeltem WaveNet das Tor zur Artificial General Intelligence im Musikschaffen weit aufgestoßen haben. Beide Entwicklungen werden nun in der Folge in diesem Teil der Blogserie näher beleuchtet.

Der YouTube-Eigentümer Google hat ein besonderes Interesse, sich mit KI-bezogener Musik zu beschäftigen. Am 1. Juni 2016 erschien folgender Blogpost: „We’re happy to announce Magenta, a project from the Google Brain team that asks: Can we use machine learning to create compelling art and music? If so, how? If not, why not?“1 Als technologische Grundlage für das KI-Musikschaffen wurde Googles TensorFlow-Framework verwendet, der bereits in Google Fotos, Google Maps und Gmail zum Einsatz gekommen war.2 Es handelt sich dabei um Rekurrentes neuronales Netzwerk (RNN), mit dem über die Jahre hinweg zahlreiche Anwendungen technisch umgesetzt wurden, wie eine browserbasierte Echtzeit-Klavierklaviatur,3 der Melodienmischer MusicVAE4 oder GanSynth, das in der Lage ist, Audiodateien nicht nur sequentiell, sondern gleichzeitig zu generieren, um Vergleiche anstellen zu können.5 Ein wichtiger Schritt für die breite Anwendung von KI zum Erzeugen und Verändern von Musik war die Etablierung der Magenta Studios. Dabei handelt es sich um eine Art Open Source KI-Werkzeugkasten, bestehend aus 5 Applikationen, mit denen originäre Musikstücke mittels KI erzeugt (Generate), bestehende Musikstücke weiterentwickelt (Continue) und verbunden (Interpolate) werden können, um diese dann an das menschliche Gehör anzupassen (Groove) und schließlich daraus den passenden Drum-Beat (Drumify) abzuleiten. Die Tools sind kinderleicht zu bedienen und können entweder direkt oder über Pluggins für die Musiksoftware Ableton Live verwendet werden.6

Aufsehen hat das Magenta Studio durch die Zusammenarbeit mit der Band The Flaming Lips erregt, die eine KI-unterstützte Konzertperformance für die Google I/O Entwicklerkonferenz 2019 umgesetzt hat. Dabei wurde Magentas „Piano Genie“, ein KI-basiertes Echtzeitinstrument eingesetzt, mit dem der Song „Fruit Genie“ erstellt wurde, der dann im Konzert live, gemeinsam mit der KI, performt wurde.7 Ebenfalls auf mediale Resonanz ist der „Bach Doodle“ gestoßen. Dabei konnten InternetnutzerInnen ihre selbst komponierten Melodien einer KI übermitteln, die diese mit einem Deep Learning-Algorithmus im Stil von Bach-Chorälen harmonisierte und visualisierte, was ein wenig an die ersten KI-Experimente von David Cope erinnert.8 Seitdem sind zahlreiche weitere Applikationen vom Magenta Studio veröffentlich worden, wie z.B. der KI-unterstützte Vocal Coach „Maestro“,9 die „Tone Transfer“-App,10 mit der eine Melodie, die beispielsweise auf dem Klavier gespielt wird, in viele andere Instrumenten „übersetzt“ werden kann oder der „Chamber Ensemble Generator“, mit dem realistische Kammermusik umgesetzt werden kann.11 All diese Applikationen sind aber lediglich Beispiele dafür, wie leistungsfähig die von Google entwickelte KI ist.

Neben TensorFlow, die den Anwendungen des Magento Studios zugrunde liegt, das im August 2023 in der Version 2.0 veröffentlich wurde,12 gibt es noch das Google WaveNet. Dabei handelt es sich um einen Deep Learning Algorithmus, der in der Lage ist, nicht überwacht von Menschen eigenständig Musikaufnahmen hervorzubringen. WaveNet wurde vom KI-Start-up DeepMind13 entwickelt, das weltweite Bekanntheit mit AlphaGo erlangte. AlphaGo ist eine künstliche Intelligenz, die das in Asien sehr beliebte Brettspiel Go mit einem Algorithmus erlernte und zur Überraschung sogar der eigenen EntwicklerInnen den südkoreanischen Go-Weltmeister Lee Sedol im März 2016 besiegte.14

Zur gleichen Zeit als Google 2014 DeepMind in seinen Konzern integrierte, arbeiteten die KI-EntwicklerInnen an WaveNet. Ursprünglich ging es um die Entwicklung eines Text-to-Speech (TTS) Algorithmus, der Schrift in menschliche Sprache umwandeln konnte. Dabei wurde klar, dass die Sprachausgabe-Technologie auch für die Musikgenerierung verwendet werden konnte. WaveNet ist ein Convolutional Neural Network (CNN), das eigentlich für die Bilderkennung eingesetzt wird. Anstatt mehrere parallele Netzwerke zu nutzen, wie es bei der Bilderkennung erforderlich ist, benötigt WaveNet nur ein CNN, das aus einer Serie von verborgenen Schichten (hidden layers), die zwischen der Eingabeschicht (input layer) und der Ausgabenschicht (output layer) geschalten sind, besteht. Damit braucht das System weniger Rechenleistung und wird dadurch robuster.

Der Lern-Algorithmus von WaveNet funktioniert ähnlich wie jener von AlphaGo.15 Es lernt nach einem Versuch- und Irrtumsverfahren. Dabei werden die Audiodaten als uninformierte Inhalte behandelt, d.h. WaveNet analysiert seine Trainingsdaten nicht in Bezug auf die Musiktheorie, wie das bei anderen KIs der Fall ist, sondern probiert einfach neue Kombinationen aus und stellt neue Verknüpfungen her. Der Lernprozess der KI dauert daher sehr lange und benötig sehr viel Rechenzeit, weil alle möglichen Kombinationen im Notenmaterial durchgerechnet werden. Jede Musiknote, die von der KI generiert wird, benötigt 16.000 Mikro-Musiksamples pro Sekunde aus dem Datenset. So kann es Monate dauern, bis mithilfe eines vorgegebenen Datensets erste brauchbare Ergebnisse geliefert werden. Wenn die KI aber einmal die grundlegenden Gesetze der Musik gelernt hat, wird der Selbstlernprozess immer schneller. Auch die Audio-Qualität der Musikstücke verbessert sich in diesem Prozess und mittlerweile ist WaveNet in der Lage, die menschliche Stimme natürlich nachzuahmen, wodurch Deep Fakes möglich werden. Die Möglichkeiten von WaveNet gehen aber weit darüber hinaus. Die KI kann selbstlernend ohne menschliches Zutun originäre Musikstücke erzeugen. Es wird zu einem autonomen Komponisten, der von sich aus Musik schafft und dabei die selbst erlernten Regeln anwendet. Damit wird erstmals die Artificial Narrow Intelligence (ANI) überwunden und die Grenzen zur Artificial General Intelligence (AGI) überschritten. KI hat somit das Potenzial ein kreativer Musikschaffender zu sein, der eigentümliche Musikwerke hervorbringt.

Peter Tschmuck

Dieser Artikel erschien erstmal am 1. April 2024 auf der Seite https://musikwirtschaftsforschung.wordpress.com/2024/04/01/ki-in-der-musikindustrie-teil-12-googles-magenta-studios-und-das-wavenet/

Teil 1: Was ist künstliche Intelligenz?
Teil 2: Wie funktioniert künstliche Intelligenz?
Teil 3: Der Aufstieg von Musikerkennungsdiensten
Teil 4: KI in der Musikerkennung und Musikempfehlung
Teil 5: Die Musikempfehlung im Musikstreaming
Teil 6: Fake-Streams und Streamingfarmen
Teil 7: KI in der Musikproduktion
Teil 8: Maschinen schaffen Musik
Teil 9: Die Vollendung des Unvollendeten
Teil 10: François Pachet: The Continuator, Flow Machines und „Daddy’s Car“
Teil 11: OpenAI und die GPT-Technologie


Peter Tschmuck ist Professor am Institut für Popularmusik (ipop) der mdw.


Endnoten

  1. Magenta, „Welcome to Magenta!“, 1. Juni 2016, Zugriff am 31.03.2024. ↩︎
  2. TensorFlow, „Why TensorFlow?“, o.D., Zugriff am 31.03.2024. ↩︎
  3. Magenta, „Real-time Performance RNN in the Browser“, 5. Oktober 2017, Zugriff am 31.03.2024. ↩︎
  4. Magenta, „MusicVAE: Creating a palette for musical scores with machine learning“, 15. Mai 2018, Zugriff am 31.03.2024. ↩︎
  5. Magenta, „GANSynth: Making music with GANs“, 25. Februar 2019, Zugriff am 31.03.2024. ↩︎
  6. Magenta, „Magenta Studio“, 12. Februar 2019, Zugriff am 31.03.2024. ↩︎
  7. Magenta, „Magenta + Deeplocal + The Flaming Lips = Fruit Genie“, 13. Mai 2019, Zugriff am 31.03.2024. ↩︎
  8. Magenta, „Visualizing the Bach Doodle Dataset“, 16. Juli 2019, Zugriff am 31.03.2024. ↩︎
  9. Magenta, „Maestro: An AI-guided vocal coach“, 26. Januar 2021, Zugriff am 31.03.2024. ↩︎
  10. Magenta, „Tone Transfer“, 1. Oktober 2020, Zugriff am 31.03.2024. ↩︎
  11. Magenta, „The Chamber Ensemble Generator and CocoChorales Dataset“, 30. September 2022, Zugriff am 31.03.2024. ↩︎
  12. Magenta, „Magenta Studio 2.0“, 24. August 2023, Zugriff am 31.03.2024. ↩︎
  13. Demis Hassabis, Shane Legg und Mustafa Suleyman gründeten 2010 in London das Unternehmen DeepMind Technologies, das 2014 von Google um US $500 Millionen gekauft wurde. Siehe: TechCrunch, „Google Acquires Artificial Intelligence Startup DeepMind For More Than $500M“, 27. Januar 2014, Zugriff am 31.03.2024. ↩︎
  14. Ausführlich wird das Kräftemessen im Go-Spiel zwischen Lee Sedol und AlphaGo im Kapitel 3 von Marcus du Sautoys Buch „Der Creativity Code“ (2021) beschrieben. ↩︎
  15. Die Funktionsweise des Lern-Algorithmus von WaveNet wird ausführlich in der Doktorarbeit von Martin Clancy „Reflections on the Financial and Ethical Implications of Music Generated by Artificial Intelligence“ im Kapitel 4.11 beschrieben. ↩︎