Unter den Titel „Our ghosts in the shell” haben das Salzburger Ensemble NAMES (New Art and Music Ensemble Salzburg) und der österreichische Medienkünstler und Musiker PATRIK LECHNER eine Konzertreihe entwickelt, in der eine Künstliche Intelligenz (KI) diverse Ebenen des künstlerischen Prozesses interaktiv (mit-)gestaltet. Im Rahmen von drei Konzerten soll dabei diskutiert werden, wie sich Mensch-Maschinen-Interaktion darstellen lässt und ob sich hierbei neue Formen transformativer Kommunikation mit Tönen und Klängen ergeben. Didi Neidhart hat mit den Initiatoren MARCO DÖTTLINGER (NAMES) und PATRIK LECHNER ein Interview geführt.
Am 4. Februar 2019 wurde in der Londoner Cadogan Hall Schuberts „Unvollendete” als „Huawei’s Unfinished Symphony“ mittels einer auf einem Smartphone installierten KI „vollendet”. Die KI wurde dabei vorher mit ca. 90 Stücken von Schubert gefüttert, um dann durch „Deep Learning“ quasi den Schubertschen „Quellcode“ zu knacken, wodurch die KI dann in der Lage sein sollte, selbstständig „like Schubert“ zu komponieren. Wie unterscheidet sich eure Herangehensweise davon?
Marco Döttlinger: Unser Zugang zu dieser Thematik ist etwas experimenteller, weil wir es weniger interessant finden, etwas durch maschinelles Lernen zu modellieren oder nachzuahmen, was wir ja schon (in Grundzügen) kennen bzw. vorauszusehen ist. Es ist ja viel spannender, denken wir, diese Techniken dazu zu verwenden, etwas herzustellen bzw. errechnen zu lassen, was – ganz vorsichtig gesagt – in dieser expliziten Form nicht von menschlichen Künstlerinnen und Künstlern gemacht werden würde/könnte. Wenn ein Modell gut trainiert ist und folglich einen sehr einleuchtenden Output liefert, der also von musikalisch geschulten Ohren als gut bewertet wird, dann passiert das ja nicht deswegen, weil das trainierte Netzwerk die kompositorischen Entscheidungen oder auch Qualitäten von z.B. Schuberts Symphonien erkannt oder sogar verstanden hätte.
Das System errechnet lediglich – ausgehend von den Eigenschaften des Datensets, das man ihm verabreicht – plausible Möglichkeiten. Das unterscheidet, würde ich sagen, ein neuronales Netzwerk, das (künstlerische) Entscheidungen trifft, von menschlichen Künstlerinnen und Künstlern, die mit all ihren Erfahrungen, ihren Sozialisationen oder künstlerischen Absichten, Neigungen wie auch Intentionen entscheiden. Natürlich könnte man auch probieren, dem Netzwerk bestimmte Intentionen zu lernen, da wird es aber noch viel komplizierter.
Ich finde hier die Frage nach der Kreativität interessant, bzw. auf welcher Ebene (der Konzeption / Programmierung) diese angesiedelt werden kann, weil doch die Entwicklung, die Wahl der Datensets und dann Fragen des Daten-Pre-Processings oder der Implementierung auch kreative Akte sind, die den Output maßgeblich beeinflussen.
Patrik Lechner: Es existieren diverse Projekte, die versuchen, die Mächtigkeit von KI-Systemen zu demonstrieren oder Geisterbeschwörungen, wie den erwähnten Schubert-Klon zu präsentieren. Was unser Projekt auszeichnet, sind drei Aspekte, denke ich: 1. Der Ansatz, statt MIDI-Daten zu erzeugen, direkt Klänge zu synthetisieren, 2. Der Versuch, die Trainingsdaten für die Maschine auf ein interpretierendes Ensemble zu beschränken statt auf eine Komponistin bzw. einen Komponisten und 3. Das Interesse am Missverständnis.
Die Technik, Audio direkt zu synthetisieren, steht eher am Anfang aufgrund der wesentlich größeren Menge an Information. Und ein klassisches Ensemble stellt wohl eines der schwierigeren Probleme dar (im Vergleich zu z.B. einem einzelnen Musikinstrument mit seinen beschränkten Möglichkeiten). Hinzu kommt, dass wir das kompositorische Material mischen, um einerseits eine Fusion zu erreichen, andererseits das spezielle am Ensemble NAMES herauszuarbeiten. Wir zwingen sozusagen die Maschine, sich auf die Interpretinnen und Interpreten zu konzentrieren. All das zusammen führt zu einer gewissen Überforderung und dadurch zu einer beträchtlichen Menge an auditiven Missverständnissen.
Zusätzlich denke ich, dass das potentielle „Ersetzen“ eines Ensembles eine viel größere gesellschaftliche Relevanz hat, als das Ersetzen des Genius hinter einer Komposition.
„Allgemein ist der Vergleich von maschinellem Lernen zu menschlichem Lernen bedingt hilfreich.“
Auch wenn es bei euch vor allem um die Potentiale von Unterschieden zwischen KI und „menschlicher Kreativität“ geht, gibt es hier nicht auch vielleicht mehr Gemeinsamkeiten, als einem bewusst ist? Ich denke dabei ebenso an quasi streng-mathematische Bach-Stücke – die ja auch nicht zufälligerweise schon ganz früh midifiziert worden sind – wie an das 2018 komplett mit einer KI aufgenommene Pop-Album „I AM AI“ der US-Sängerin Taryn Southern. Gerade wenn die Trennung zwischen (freier) „Kunst“ und (dienstleistender) „Creativity“ nicht mehr ganz so streng gegebenen ist, geht es doch in beiden Fällen prinzipiell um (genrespezifisches) „Handwerk“ (und weniger um z.B. Intuitionen).
Patrik Lechner: Kreativität (so wie „Intelligenz“) ist natürlich ein hoch problematischer Begriff. Auf gewisse Weise wird hier die Frage nach dem „Neuen“ gestellt. Kann eine Maschine etwas erzeugen, das nicht im Trainingsdatensatz enthalten war? Die Antwort ist sehr einfach – es gibt drei Fälle: Entweder die Maschine versteht tiefer liegende Muster und kann daher „Neues“ erzeugen, das den versteckten Prinzipien folgt. Hier muss die ursprüngliche Frage verfeinert werden. Oder die Maschine lernt exakt, was sie gezeigt bekommt („over-fitting“), hier ist die Antwort „Nein“. Oder die Maschine ist überfordert und nicht in der Lage zu replizieren, antwortet bruchstückhaft und verträumt. Hier ist die Antwort eindeutig „Ja“.
Allgemein ist der Vergleich von maschinellem Lernen zu menschlichem Lernen bedingt hilfreich. Zuweilen bricht diese Metapher völlig zusammen. Nur wenige Kinder, denen man das Blockflötenspiel beibringt, werden ein paar Noten spielen, um plötzlich in ohrenbetäubendem Krach zu verfallen, gefolgt von fünf Minuten Stille und dem stupiden Halten eines einzelnen Tones für 10 Minuten.
Bei ”Our ghosts in the shell” soll das menschliche (kreative) Eingreifen in die Algorithmik computer-gestützter Kompositionsprozesse ein „Destillat der Differenz“ generieren. Geht es bei euch daher weniger um die Fusion von zwei Dingen (Mensch und Maschine), als vielmehr um das, was als scheinbar dysfunktionaler Rest übrigbleibt?
Patrik Lechner: Es geht um in Serie geschaltete Differenzen. Das Ensemble spielt, die Maschine hört zu, repliziert verlustbehaftet, der Mensch hört zu, reagiert, repliziert verlustbehaftet. Es ist ein altes Spiel, dass Artefakte von Technologien zu ästhetischem Material werden (siehe Glitch). Es scheint offensichtlich, dass die neuartigen Glitches durch einen ähnlichen Prozess, der bei uns sozusagen gerafft präsentiert wird, in das gestalterische Repertoire einfließen werden.
„In dieser Zuspitzung auf „kontrolliert versus zufällig” steckt viel ideologisches Wollen.“
Wieso ist das Projekt als dreiteiligen Konzertreihe konzipiert? Geht es darum, den Prozess des „Lernens“ der Maschine und der damit verbundenen Interaktion mit dem Ensemble NAMES quasi in actu nachvollziehbar zu machen?
Marco Döttlinger: Die Dreiteiligkeit ist der konzeptionellen Überlegung geschuldet, unterschiedliche Zugangsmöglichkeiten darzustellen, vor allem, was die Vermittlungs- oder Interaktionsform des Entstandenen betrifft: Das erste Konzert präsentierte am 17.02.2021 zwei Werke, „Derive I“ (Pierre Boulez) und „In C“ (Terry Riley), da diese beiden Stücke als Trainings-Daten-Sets verwendet wurden, und schließt mit dem Audio-Track, den das Neuronale Netzwerk aus der Musik von Boulez und Riley kondensiert hat. Man hat also die Möglichkeit, erst die Datensets zu hören (Konzertmusik), dann die daraus gezogene Musik des Netzwerks bzw. jene von Patrik Lechner, der das System programmiert hat. Dabei kann man selbst hörend entscheiden, wie adäquat oder dilettantisch die Entscheidungen der Machine sind.
Im zweiten Konzert am 14.04.2021 wird es dann darum gehen, das Netzwerk weiterzuentwickeln und die Musikerinnen und Musiker von NAMES sowie Patrik Lechner noch praktischer miteinzubeziehen, die Ebenen als Konzertform aufeinandertreffen zu lassen. Die elektronischen Outputs des Systems werden von den Musikerinnen und Musikern instrumental bzw. von Patrik mit live-elektronischen Mitteln aufgegriffen und kontrapunktiert, weitergesponnen.
Für das letzte Konzert ist vorgesehen, dass aus allen Audio-Aufnahmen, die das Ensemble seit seinem Bestehen erarbeitet hat, ein akusmatisches, vom Netzwerk errechnetes Stück entsteht. Eine Musik auch über die Wahl der Stücke, der Art des Spiels und des Klanges des Ensembles. Es ist sozusagen eine Meta-Interpretation von allem, was NAMES die letzten Jahre künstlerisch gemacht hat, wobei noch offen ist, ob einzelne Musikerinnen und Musiker mit dieser elektronischen Musik in einen Dialog treten werden bzw. ob Patrik Lechner dieses Material dann Live in eine Form bringt, quasi performt oder als Ausgangspunkt nimmt etc.
Jeder der drei Termine ist auch durch ein kleines Gespräch zwischen mir und Patrik flankiert, um konzeptuelle Überlegungen und Probleme bzw. künstlerisch spannende Wegmarken, die während des Arbeitsprozesses immer auftauchen, einem interessierten Publikum zugänglich zu machen.
Als „Trainingsmaterial für die KI“ wurden Werke von Pierre Boulez („Derive I“) und Terry Riley („In C“) verwendet. Wie kam es zu dieser Auswahl?
Marco Döttlinger: Diese Wahl hat zwei unterschiedliche Gründe. Einerseits spielte eine pragmatische Überlegung eine gewisse Rolle. Beide Werke sind für die zur Verfügung stehenden Instrumentalbesetzung des Ensembles komponiert (Boulez) bzw. in dieser Besetzung gut realisierbar (Riley schreibt die Besetzung nicht explizit vor) und es handelt sich um „Klassiker“ oder Repertoirewerke der Neuen Musik ab 1950.
Wichtig bei der Wahl des Datensets ist ja, dass es eine gewisse Homogenität bzw. Konsistenz aufweist. In unserem Fall sind in beiden Stücken ähnliche Instrumentalfarben vorhanden, um völlig entropisch wirkende Resultate – wenigstens auf dieser Ebene der Arbeit – möglichst auszuschließen. Andererseits war klar, dass sich die beiden Komponisten ästhetisch aber auch kompositionstechnisch wohl nicht hätten einigen können.
Wir wollten also nicht stilistisch homogene (KI-fertiggestellte Fake-Stücke, Stilkopien oder „Tonsatzübungen“) machen, sondern zwei unvereinbare ästhetische Positionen in einen (artifiziellen) Kopf hineinzwingen, wenn man das so sagen kann. Diese ästhetische Inkommensurabilität technisch zuzuspitzen und dann zu schauen, was passiert, war der zweite Gedanke dieser Auswahl.
„Wenn die Maschine Krach erzeugt, erzeugt sie keine Zufallsreihe.“
Bei vielen Debatten zu computergenerierter Musik geht es ja auch immer um Aspekte von Kontrolle versus Zufall. Bekannt geworden sind dabei u.a. Aktionen wie bewusst herbeigeführte Systemabstürze (Bier über den Laptop gießen), aber auch die Möglichkeiten von Zufällen, wie sie u.a. beim Ableton (mit Extraverweis auf „Installationen“) oder bei „adaptiver Musik“, die sich (von Kunstinstallationen bis zu Videospielen) in Echtzeit an ihr jeweiliges Umfeld anpasst, möglich sind. Wodurch unterscheidet sich hier jedoch euer Ansatz?
Marco Döttlinger: Das ist eine gute Frage bzw. ein sehr interessantes Feld. Aus meiner Sicht ist es nicht immer so klar, was nun als streng kontrolliert oder zufällig, arbiträr oder als chaotisch gilt (was ja nur meint, dass eine prozessuale Entwicklung nicht eindeutig vorhersehbar ist).
Es hängt davon ab, auf welche Ebenen man diese – oft wertend gemeinten Adjektive – anwendet: Spricht man also davon, wie etwas gemacht ist oder eher, wie etwas wahrgenommen wird. Zwei Beispiele: Mozart wird eine „Anleitung zum Componieren von Walzern vermittels zweier Würfel“ zugeschrieben, die hält, was sie verspricht: man montiert kurze Walzer-Schnipsel, angeordnet durch Würfeln. Wenige würden diese netten Walzer ablehnen, weil sie zu beliebig klingen.
Nehmen wir nun das Klavierstück „Mode de valeurs et d’intensités“ von Olivier Messiaen, ein kurzes Klavierstück, an dem gar nichts dem Zufall überlassen scheint, die Parameter sind seriell organisiert etc. Wie diese Musik aber für ihre ZeitgenossInnen gewirkt haben mag, ist eine ganz andere Frage. Ich denke eher, in dieser Zuspitzung auf „kontrolliert versus zufällig” steckt viel ideologisches Wollen.
Patrik Lechner: Ich würde da dem Gesagten völlig zustimmen und in diesem Sinne meinen, man müsste zunächst klären, was „Zufall“ ist. Computer sind nicht in der Lage Zufall zu erzeugen, da sie deterministische Systeme sind. Die Antwort auf die Frage, ob die Welt dazu in der Lage ist, ist abhängig von der bevorzugten Interpretation der Quantenmechanik. „Sinn“, „Struktur“ und „Ordnung“ aus dem uns umgebenden scheinbaren Tohuwabohu herauszuschälen, ist ja im Kern das, was künstlerisches Engagement ausmacht. Ob es besser ist, als Quelle des „Zufalls“ einen Morgenspaziergang oder einen PRNG (Pseudo Random Number Generator) zu verwenden, ist eine romantische Frage.
Ein Unterschied zwischen den angesprochenen Arbeiten und unserem Projekt ist, dass es hier nicht zentral um Zufall geht, sondern um Abwege und alternative Interpretationen. Wenn die Maschine Krach erzeugt, erzeugt sie keine Zufallsreihe. Es ist eine Zahlenreihe, die genauso sein muss, da es eine Annäherung an eine Lösung des Problems ist. So gesehen höchst „sinnvolles“ Rauschen. Hier genau wird die Diskrepanz zwischen dem Begreifen der Maschine und unserer Wahrnehmung hörbar gemacht. Eine Annäherung eines Menschen an eine Komposition, wie vielleicht ein Summen, ein Pfeifen, ein „Ta-Ta-Ta Taaa“. Die Maschine sieht den Kern an anderen Orten und kommuniziert anders.
Diese KI wird von euch als „neuronales Netzwerk“ beschrieben. Was ist darunter zu verstehen?
Patrik Lechner: Es handelt sich um einen biologisch inspirierten Algorithmus der entfernte Ähnlichkeit mit den Neuronen unseres Gehirns hat. Er zeichnet sich durch seine Allgemeinheit aus und findet aufgrund der Entwicklung der Ressourcen (Rechenleistung) immer weitere Verbreitung. Letztlich ist es ein Haufen Additionen, Multiplikationen und einfachste nicht-lineare Funktionen.
Den Titel „Our ghost in the shell“ habt ihr vom berühmten gleichnamigen Manga von Masamune Shirow aus 1989 übernommen. Wieso dieser Bezug zu japanischen Mangas/Animes?
Marco Döttlinger: Ja genau, der Titel ist eine Paraphrase dieses berühmten Mangas. Ich denke, viele kennen dieses Manga (auch durch Kino-Verfilmungen). Es handelt unter anderem von Menschen, die sich upgraden (Cyborgs), die ihren Körper ganz oder teilweise durch künstliche Implantate ersetzt haben. Selbst das Gehirn lässt sich durch ein sogenanntes Cyberbrain ersetzen. Im Maschinenkörper steckt also der menschliche Geist, um in der Terminologie von Shirow zu bleiben, als Ghost im cyberbrain, quasi als Allegorie für künstliche, von Menschen entwickelte „Intelligenz“ (Software) im ebenso von Menschen designten Körpern (Hardware).
Die Wahl dieser – zugegebenermaßen sehr plakativen – Paraphrase als Titel, ist der Thematik dieses Mangas geschuldet, einer Thematik, die natürlich sehr aktuell ist, da Machine-Learning-Systeme aus unserem Alltag nicht mehr wegzudenken sind: z.B. werden sie eingesetzt für Suchmaschinen/maschinelle Sprachübersetzung/Texterkennung & -Generierung/optische Zeichenerkennung/Handschrift-, Sprach-, Bilderkennung, etc.
Technisch sind diese natürlich auch Voraussetzungen eines Digital-Panoptismus (Social-Credit-, Social-Scoring- Systeme etc.), wie wir ihn in Europa noch nicht beobachten können.
Es kann aber im Rahmen einer Konzertreihe nicht direkt darum gehen; vielmehr verstehen wir dieses Projekt als Diskussionsbeitrag, um diese Techniken/Diskurse vor allem in unserem Feld zu reflektieren, zu problematisieren oder vielleicht sogar zu entmythologisieren.
„Die Kapazitäten des Menschen, Dinge zu anthropomorphisieren sind grenzenlos.“
Nicht nur in post-humanen Diskursen wird der Moment, wo eine Maschine/eine KI „menschenähnlich“ wird, damit beschrieben, dass diese Maschine/KI sagt: „Ich bin eine Maschine/KI.“ D.h., wo die Masche/KI sich selbst reflektiert und erkennt und ein Bewusstsein entwickelt. Dazu gehört auch eine gewisse Lernfähigkeit, auf neue/unbekannte Situationen intuitiv (also mit Rückgriff auf schon mal gelerntes) zu reagieren.
Patrik Lechner: Es gibt hier eine Welt an Philosophie/Psychologie/Neurologie und Informatik, die man an dieser Stelle durchforsten müsste. Der Moment, in dem die Maschine sagt: „Ich bin eine Maschine” oder womöglich „Aua, das tut weh”, ist nicht ausreichend, um etwaige technologische Singularitäten zu beschwören, aber beeindruckend. Die Kapazitäten des Menschen, Dinge zu anthropomorphisieren sind grenzenlos. Male zwei Augen auf einen Stein, wackel damit und sag „Hallo, mein Name ist Rudi der Stein“ und die meisten Menschen sind an Bord.
Der allseits bekannte Turing-Test wurde zum ersten Mal 2014 „bestanden“, durch den Chatbot „Eugene Goostman“. Es wurde erfolgreich einer Gruppe Amerikanerinnen und Amerikanern vorgegaukelt, dass am anderen Ende ein ukrainischer 13-Jähriger sitzt. Wenn dieser eigentümliche Dinge von sich gibt, zeigen sich die Amerikanerinnen und Amerikaner nachsichtig und denken eben, es könnte tatsächlich ein Mensch sein und nicht eine KI. Die Wahrheit hinter Bewusstsein und Leidensfähigkeit der Maschine ist ein ähnlich hartes Problem wie die Wahrheit hinter unserem Bewusstsein (siehe Chalmers etc.). Die gesellschaftliche Realität der Maschinen, denen wir Bewusstsein zubilligen, hat wohl mehr mit Körperlichkeit, Vereinsamung und Kapitalinteressen zu tun. Um es deutlicher zu sagen: Sexbots und Virtuelle LebensgefährtInnen sind wohl eher die Avantgarde als Turing Tests in IT-Departments im Silicon Valley.
Wenn ich euch richtig verstanden habe, geht es bei „Our ghosts in the shell” nicht unbedingt um dieses (Science Fiction-) Thema, wohl aber um jene Aspekte, die eine Maschine/eine KI dazu befähigen transformativ zu agieren (bzw. auch den binären Code von „1/0“, „Ja/Nein“ zu durchbrechen). Also quasi vollgefüttert mit Boulez und Riley auch Musik zu generieren, die nicht (mehr) auf Boulez und Riley rückführbar ist. Ist das nicht euer eigentliches Thema?
Marco Döttlinger: Ich denke, dass man das so sagen kann, ja. Verwandlung spielt eine wichtige Rolle und natürlich das Moment der Überraschung, die Irritation und das herbeigeführte Missverstehen. Damit ist natürlich auch die Frage nach den künstlerischen Werkzeugen angerissen. Die Wahl dieser Mittel impliziert die Art und Weise, wie sich eine künstlerische Praxis gestaltet, welche Probleme sie aufwirft oder auch, mit welchen Themen man sich beschäftigen kann bzw. inwiefern – um auf die Musik zurückzukommen – ein Stück ein klanglicher Ausdruck dieses Prozesses, der beteiligten Protagonistinnen und Protagonisten und ihrer Realitäten ist. Für mich ist das eine zentrale Frage und auch eine sehr persönliche.
Wenn ihr einen Blick in die Zukunft wagen würdet, wie wäre dann das (ideale) Verhältnis zwischen eurer KI und den (menschlichen) Musikerinnen und Musikern?
Patrik Lechner: Eine optimistische Antwort wäre hier wohl: gegenseitige Inspiration, und Bespaßung, und dass wir alle viel Neues lernen von den „Hyperintelligenten Maschinen“. Zunächst, wenn man auf die Entwicklung von GPT-3 (einer Text//Literatur generierenden KI) blickt, ist es durchaus noch ein langer Weg. Aber ich denke auch, dass man dankbar sein darf, in einer Zeit zu leben, in der diese Techniken in den Kinderschuhen stecken, uns noch nicht völlig überwältigt haben, aber experimentellem Einsatz zugänglich sind.
Ich glaube, man kann in die Welt des Schachspiels blicken, um zu sehen, wie die KI hier verwendet wird, welchen Stellenwert sie hat und welche Kränkungen hier entstanden sind. Vilem Flusser sagte in den 1980ern, dass wir in Zukunft nur KIs beim Schachspielen zuschauen werden – sie können es ja bei weitem besser als jeder Mensch. Das ist nicht der Fall, auch wenn jedes Smartphone den Weltmeister schlagen kann. Der Charakter der Computer- Schachspieler ist deutlich anders, teilweise nicht nachvollziehbar und skurril. Gut, hier steht der Unterhaltungswert der Spiele noch nicht in der Optimierungsfunktion der Netze, das mag noch kommen. Aber selbst in einem so scheinbar klar definierten Problem wie Schach ist doch der Computer eher als „Recommendation System“ im Einsatz und nicht völlig zum einzigen Protagonisten geworden. So wie man Schubert von Huawei vollendet hören kann, kann man auch gegen Klons berühmter Schachmeister spielen. Es fehlt jedoch die psychologische Projektionsfläche (der Gegner denkt dies, die Komponistin/der Komponist muss hier an der schönen blauen Donau entlang spaziert sein). Es ist fraglich, aber zu hoffen, dass dies zu einer Konzentration auf das eigentliche Werk führt.
Vielen Dank für das Interview.
Didi Neidhart
++++
„Our ghosts in the shell“
Konzertreihe von NAMES und Patrik Lechner
Konzert 1: ghosts I (vom 17.02.2021)
Konzert auf Youtube
Konzert 2: ghosts II
Mit, 14.04.21 – 19:00Uhr
Stadtgalerie Lehen
Inge-Morath-Platz 31
5020 Salzburg
Konzert 3: ghosts III
Fre, 11.06.21 – 19:00
Stadtgalerie Lehen
Inge-Morath-Platz 31
5020 Salzburg
Stream (am jeweiligen Konzerttag):
https://www.facebook.com/FS1.CommunityTV.Salzburg
++++
Links:
Ensemble NAMES