„Wir haben die objektiveren Algorithmen“ – Thomas Lidy (Utopia Music) im mica-Interview

THOMAS LIDY ist Senior Director für AI & Data Science bei UTOPIA MUSIC. Im Interview mit Markus Deisenberger erklärt der ausgewiesene Spezialist für Musikanalyse, wie Musiker:innen, die auf Streaming-Plattformen nicht viele Klicks haben, von Einnahmen abgeschnitten werden, und wie KI-gestützte Systeme dabei helfen können, die Situation zu verbessern.

Sie sind seit zwanzig Jahren an der Schnittstelle zwischen Musik, Technologie und KI bzw. Machine Learning tätig. Wie sind Sie in diesen Bereich „reingerutscht“?

Thomas Lidy: Ich habe eine Informatikausbildung an der TU Wien gemacht. Heute sind im Masterstudium schon jede Menge Spezialisierungen wählbar, damals gab es das noch nicht. Man musste sich erst gegen Ende des Studiums eine Spezialisierung suchen. Die war bei mir eben Musikanalyse. Ich habe das dann 2004 zum Thema meiner Diplomarbeit gemacht und diesen Bereich seitdem auch kaum mehr verlassen. Auch eine Dissertation habe ich zu diesem Thema angefangen, aber zwei Mal unterbrochen, weil ich ein Start-up gründete.

Das war Spectralmind, nehme ich an. Worum ging es da?

Thomas Lidy: In Teilbereichen gibt es eine Überschneidung mit dem, was wir heute bei Utopia Music machen. Es ging schon damals um Musikanalyse. Ein Signal aus dem digitalen Musikfile wurde verarbeitet und in Machine-Learning-Methoden gefüttert, um es zu kategorisieren. Zur Genre-Erkennung. Und das zweite Thema war Musikähnlichkeit (Music Similarity), was bei Utopia auch heute noch Thema ist. Ich habe einen bestimmten Titel und will, dass mir dazu alle Titel ausgegeben werden, die ähnlich klingen. Wenn Musik für Werbung oder Film gebraucht wird, habe ich üblicherweise einen Modell-Titel, dann erhalte ich Alternativvorschläge, anhand derer ich mich weiterhanteln kann. Ich will etwa das Tempo noch ein bisschen schneller, die Klangfarbe einen Hauch anders etc. Musikähnlichkeit und Kategorisierung sind Themen, die sich durchziehen. Es war damals schon Machine Learning und ist es auch heute noch. Jetzt heißt es Deep Learning, beides unter dem Dach von Künstlicher Intelligenz (KI).

Und natürlich hat sich das Feld weiterentwickelt: Um 2010 kam das Thema Deep Learning auf, wodurch sich ein signifikanter Fortschritt ergab. Plötzlich konnte man die Maschine mit größeren Daten füttern und bekam einen wesentlich besseren Output. Wenn man die wesentlichen Milestones in dem Bereich zusammenfasst, dann waren das Deep Learning und nunmehr Large Language Models (zu denen auch ChatGPT gehört), die das Thema gepusht haben.

War KI auch schon vor zwanzig Jahren Thema?

Thomas Lidy: Ja, weil man KI als das Dach sehen kann,  unter dem sich Machine Learning und NLP, (Natural Language Processing) befinden. Deep Learning ist wiederum ein Teilbereich von Machine Learning, aber es waren damals tatsächlich schon Machine-Learning-Methoden, die zur Musik-Kategorisierung und Ähnlichkeitssuche herangezogen wurden.

Hatten Sie immer schon auch mit Data-Mining-Methoden zu tun?

Thomas Lidy: Ja. Wir haben an der TU Wien im Jahr 2004/2005 die „Map of Mozart“ gebaut, wo wir Mozarts gesamte Werke mithilfe von Machine Learning kategorisierten. Um die 2.000 Werke von ca. 250 CDs wurden dafür eingelesen und nach Clustern in Orchesterwerke, Sonaten, Opern gegliedert und auf einer „Self Organising Map“ in Inseln dargestellt – ein Vorläufer der heute gebräuchlichen neuronalen Netzwerke.

Die Methoden waren damals natürlich um einiges primitiver als heute, aber es gab sie schon und wir haben die Ergebnisse auf einem Tablet dargestellt, also für interaktive Nutzungen verdeutlicht. Man muss sich vorstellen: Das war 2005, das iPad kam erst 2010. Wir waren unserer Zeit also ziemlich voraus.

Das heißt, ihr habt das Gesamtwerk Mozarts nach Ähnlichkeiten kategorisiert?

Thomas Lidy: Genau. Das wurde damals aber auch in anderen Bereichen etabliert: Ich konnte mit derselben Methode und Anwendung meine Musiksammlung nach Genres ordnen und dann in den Playlisten interaktive Übergänge schaffen.

Was ist der Nutzen von Musikkategorisierung? Welche positiven Effekte ergeben sich? Ich nehme einmal an, Bildung spielt eine Rolle, oder? Man kann durch diese Mozart-Map ja jemandem, der von Mozart keine Ahnung hat, einen leichteren Zugang zu einer an sich komplexen Materie verschaffen.

Thomas Lidy: Richtig. Das ist auch heute noch einer der Claims, die wir mit unseren Musik-Empfehlungs-Methoden für uns beanspruchen: Man findet in der Unmenge des Angebots das Gewünschte besser und einfacher.

Das grundsätzliche Problem von Musikanalyse heute ist: Plattformen verarbeiten hochgradig die Nutzerreaktionen auf Musik. Dadurch passiert auf Musikplattformen das Gleiche, was auch auf Facebook passiert. Ich bin irgendwann in einer Filterblase und konsumiere nur noch Musik der gleichen (populären) Künstler:innen oder des gleichen Genres.

Die Diversität bleibt auf der Strecke?

Thomas Lidy: So ist es. Dagegen kann ich mit Methoden, die nicht das, was die Hörer:innen bereits gehört und wie sie darauf reagiert bzw. wann sie wie geklickt haben, analysieren, sondern tatsächlich den Inhalt der Musik – den Klang –, neue Musik, die heute erst online gestellt wurde, morgen schon Leuten empfehlen, die diese Art von Musik interessiert. Ich habe also durch Klanganalyse eine viel objektivere Möglichkeit, Musik zu empfehlen und damit zu vermarkten. Eine steirische Band kann jemanden in Kanada erreichen, der ähnlich klingende Musik hört, ohne dass ich dafür tausende Klicks brauche, weil der herkömmliche Empfehl-Algorithmus auf Streaming-Plattformen ja nur lernt, wenn jemand draufgeklickt hat.

Aktuell wird allerdings von Seiten der Labels und Streaming-Plattformen das Artist-zentrierte Modell propagiert wird, was heißt, dass viele Künstler:innen, die keine großen Umsätze machen, also nicht viele Klicks und Plays haben, in ihren Erwerbsmöglichkeiten stark limitiert sind.

Für die wäre eine objektive, musikbasierte Empfehlung von Vorteil, weil diese eben nicht die Filterbubble begünstigt, sondern nach akustischen Kriterien Musik an die Fans vermittelt. Das Artist-zentrierte Modell dagegen bedeutet, man braucht tausend Klicks, um überhaupt im Bezahlmodell berücksichtigt zu werden. Wir haben die objektiveren Algorithmen, um Künstler:innen und Fans zu matchen.

Das Problem ist die Business-Realität?

Thomas Lidy: Ja, zu einem gewissen Grad. Vielfach geht es nicht darum, den Nutzer:innen die möglichst beste Musik zu liefern, sondern auch die Interessen der Labels unterzubringen, die eine bestimmte Musik pushen wollen.

Und die Interessen der Plattform selbst gilt es auch zu berücksichtigen, nehme ich an.

Thomas Lidy: Ja, klar, jede Plattform hat Interessen, wie sie die Nutzung optimiert, was sich nicht zu 100 % mit dem Wunsch der Hörer:innen nach der besten Musik decken muss.

Neulich hat mir ein Pink Floyd-Fan erzählt, er sei erst sehr spät draufgekommen, dass es eine Band gibt, die genauso klingt. Warum? Diese Band wurde ihm nie vorgeschlagen, weil sie bei einem kleinen Indie-Label veröffentlicht. Die Plattform hatte anscheinend kein Interesse daran, ihm diesen Tipp zu geben.

Thomas Lidy: Technisch sagt man dazu Cold-Start-Problem. Nehmen wir an, ich lade heute einen Song hoch. Wenn niemand diesen Sing findet, anklickt und hört, kommt der nie in den Recommender-Algorithmus. Dadurch kann er niemand anderem empfohlen werden, und dadurch verringert sich auch die Chance, dass er jemals von irgendjemandem gehört wird, extrem. Mit dem, was wir bei Utopia Music anbieten, nämlich dass die Musik an sich analysiert wird, brechen wir aus diesem Dilemma aus. Ich kann den Song von Tag eins weg der Zielgruppe empfehlen, von der ich weiß, dass sie klanglich auf diese Art von Musik abfährt.

„… und dann gibt es noch die echten Discovery-Freaks, die Afficionados und Liebhaber:innen, die gerne und auch proaktiv neue Musik kennenlernen.“

Das klingt für Urheber:innen sehr interessant, aber ist es auch für industrielle Plattformen interessant?

Thomas Lidy: Die Plattformen haben ein Interesse, die Nutzung auf der Plattform möglichst zu erhöhen, und ein großer Anteil hört Pop. Ich habe mal von einem Wiener Radio-Chef gehört: „Unsere Hörer wollen nur Schnitzel und nichts anderes als Schnitzel.“ Kann ich so sehen, muss ich aber nicht, denn es gibt auch noch andere Nutzer:innengruppen Da wären einmal die, die sich gerne neue Künstler:innen vorschlagen lassen, und dann gibt es noch die echten Discovery-Freaks, die Afficionados und Liebhaber:innen, die gerne und auch proaktiv neue Musik kennenlernen. Wenn ich denen Musik vorschlage, nicht weil sie schon eine Million Mal konsumiert wurde, sondern weil sie neuartig ist und vom Klang zu ihren Hörgewohnheiten passt, sind die begeistert. Wenn ich es dadurch schaffe, auf der Plattform die Nutzung zu erhöhen, auch wenn es nur einen Teil der Nutzer:innen betrifft, gewinne ich damit schon etwas.

Die meiste Berichterstattung über KI in den letzten Monaten war eher negativ. Vom „größten Diebstahl der Menschheitsgeschichte war“ die Rede, von Jobs, die in Gefahr sind etc. Jetzt macht ihr bei Utopia eine ganze Reihe von Dingen, die einen großen Nutzen für Musiker:innen, Labels und auch Plattformen haben können. Wenn man auf eurer Website fragt, was Machine Learning der Musikindustrie bringt, bekommt man viele schlagwortartige Antworten. Vielleicht gehen wir die kurz durch?

Thomas Lidy: Gerne.

Da ist einmal von „Metadaten anreichern“ die Rede. Heißt das, ich kann Musik mit Information versehen, die in verschiedenen Nutzungsmodellen dann eine Rolle spielen?

Thomas Lidy: Konkret bekommt man bei unserem Musik-Beschlagwortungssystem 118 verschiedene Genres, 59 verschiedene Stimmungen (Moods), und viele andere Informationen wie Tonart, Beats per Minute, die Energie und Rhythmusaktivität im Song, etc., insgesamt mehr als dreihundert beschreibende Metadaten-Tags.

Auch die Instrumentierung?

Thomas Lidy: Leider nicht, das ist relativ schwierig. Aber ob die Stimme weiblich oder männlich ist (bzw. beides vorkommt), weiters kann ich so genannte Listening-Situations beschreiben, von „Beer with friends“ über „Sport“ bis „Romantic Dinner“. Zusätzlich haben wir noch optional eine Analyse der Lyrics im Angebot. Da analysieren wir die Bedeutung der Lyrics. Oft gibt es eine Diskrepanz zwischen Soundbild und textlicher Bedeutung. D.h. die Musik kann etwa sehr fröhlich klingen, aber sehr traurigen Text haben.

Die Analyse funktioniert nach Keywords, Schlüsselphrasen und Sprache. Eine weitere Lösung, die Utopia anbietet, ist die Musikidentifikation, die man sich ähnlich wie bei Shazam vorstellen kann: Sie wird zum Radio-Monitoring eingesetzt. Wenn sich ein kleines Label meldet, nehmen wir das in unseren Roster und tracken weltweit auf Radiostationen und Streaming-Portalen. Das Label bzw. der:die Künstler:in kann sich einloggen und sehen, wie die eigene Musik auf Radio, auf Streaming-Plattformen oder Social Media funktioniert.

Was passiert, wenn sich ein Ungleichgewicht zwischen Monitoring und Abrechnung ergibt, wenn also mehr gespielt als tatsächlich abgerechnet wird?

Thomas Lidy: Wir machen Monitoring in erster Linie für das Label und die Künstler:innen, um zu wissen, was Sache ist. Beim Tracking haben wir zwei Themen, die wir ausbauen: das eine ist Vorhersage für die Tantiemen. Was wirst du als Künstler:in in drei oder sechs Monaten verdienen? Ein Produkt von Utopia beschäftigt sich auch mit Vorauszahlungen. D.h. auf Basis der Voraussagen bekommen die Artists vorab Geld. Teilweise muss man ja bis zu ein Jahr warten; wir ermöglichen den Künstler:innen das Geld um einiges schneller zu bekommen. Wenn die tatsächlichen Zahlen vorliegen, wird gegengerechnet.
Wir bauen unsere Produktpalette in Zukunft weiter für Pre-Release-Management aus, um schon vor dem Release Vorschläge zu machen, wo die Kanäle sind, wo diese Musik, die kurz vor der Veröffentlichung steht, die besten Chancen hat. Wir wollen den Künstler:innen Möglichkeiten geben, ihren Erfolg zu steuern.

Zusammenfassend wenden wir Methoden der KI an, um Musik zu analysieren, zu beschlagworten und zu empfehlen. Darauf aufbauend haben wir dann Möglichkeiten, den Song mit Playlists, den bestpassenden Radiostationen und dadurch mit den Hörer:innen (Konsument:innen) in Verbindung zu bringen. Binnen Sekunden können wir sagen: Auf diesen Radiostationen oder Streaming-Playlists macht dieser Titel am meisten Sinn.

Das große Thema von Utopia ist also, KI einzusetzen, um Künstler:innen beim Tracken und Monitoring zu unterstützen?

Thomas Lidy: Genau, und diese Art von Unterstützung für Artists wollen wir ausbauen, um eine Vorausplanung zu ermöglichen, um den Künstler:innen und die Musik bestmöglich zu promoten. Wir unterstützen die Künstler:innen dadurch entlang der gesamten Musikwertschöpfungskette. Alles, was den Artists vor dem Release, beim Release und danach unterstützt. Wo findet der Song voraussichtlich seine Kanäle?

Was wir allerdings nicht machen, ist „AI-generated Music“, also wir erzeugen keine mittels AI generierte Musik, was wohl die größte Bedrohung für Musiker:innen besteht.

Warum nicht?

Thomas Lidy: Weil wir für die Künstler:innen da sein wollen. Wir bieten ausschließlich Tools an, die die Künstler:innen beim Verbreiten, Promoten und Tracken der Musik unterstützen, und dabei helfen, mehr Royalties zu generieren.

Lassen Sie uns noch über die Bedrohung durch KI reden.

Thomas Lidy: Gerne. Ich war vor einigen Wochen bei einer Veranstaltung der Wirtschaftskammer zu den Sparten Film, Musik und Spiele. Es fanden Fachvorträge statt. Und zu Beginn eines Vortrags über KI wurden die Anwesenden gefragt, wer sich bedroht fühle. Was denken Sie, wie ging die spontane Befragung aus?

Schwer zu sagen. 50:50?

Thomas Lidy: Von circa siebzig Anwesenden fühlten sich nur fünf bedroht. Viele sehen das als Chance und haben realisiert, dass es Anwendungen wie unsere gibt, die Künstler:innen nicht bedrohen, sondern ihnen helfen. Es gibt viele Systeme, die den Künstler:innen beim kreativen Schaffen helfen. Ich kann als Künstler:in auf ChatGPT zurückgreifen, um mir bei den Lyrics helfen zu lassen, oder auf Deep Learning basierte Drum Machines, die mir Beat Patterns erzeugen.

Eine ganz andere Bedrohung ergibt sich aber doch aus der Flutung der Märkte. Wenn ich den Musikmarkt mit KI-generierter Musik flute, wird es schwierig, das Gute noch zu erkennen. Was meinen Sie?

Thomas Lidy: Bedrohlich wird es, wenn ich auf Knopfdruck einen Song in einer Qualität erzeugen kann, in der heute gute Musik erzeugt wird. Wenn ich also kaum noch einen Unterschied zwischen einem KI-generierten Song und einem echt produzierten Song erkennen kann und der dann auch noch automatisch auf eine Streaming-Plattform wie Spotify gestellt wird. Ich fürchte, dass wir da in absehbarer Zeit hinkommen. Momentan sehe ich das allerdings noch nicht. Derzeit wirken die Dinge noch zusammengestöpselt. Angesichts vieler Entwürfe frage ich mich, ob es nicht gescheiter wäre, sich gleich selbst kreativ mit der Erzeugung originärer Musik zu beschäftigen. Momentan kann KI für Musikerzeuger:innen ein Assistent sein. Nicht mehr, aber auch nicht weniger. Aber wir werden wohl oder übel dahinkommen, und dann ist die große Frage, was das bedeutet.

„Man sollte sich jetzt in großem Stil überlegen, was das fürs Copyright bedeutet.“

Ihr Rat?

Thomas Lidy: Man sollte sich jetzt in großem Stil überlegen, was das fürs Copyright bedeutet. Momentan wird nur spekuliert. Die großen AI-Companies nehmen, was sie im Internet finden, um KI zu trainieren. Es ist wie im Wilden Westen. Jeder weiß, dass eine Regulierung hermuss.

Meine Hoffnung ist der AI-Act, aber da braucht es auch noch eine ganze Weile, bis der greifen wird. Und der greift meiner Meinung nach noch nicht weit genug, wenn es um die Urheber:innen geht. Natürlich versucht man, die Gefahr der KI einzuschränken. Meine Vermutung aber ist, dass er insgesamt noch einmal abgeschwächt bzw. verwässert wird, bevor er beschlossen wird.

Über eines haben wir noch nicht gesprochen: Wer sind eure Kund:innen? Artists? Labels? Große Labels? Kleine Labels?

Thomas Lidy: Sowohl als auch. Das kommt auf das Produkt drauf an. Kleine Labels sind am Monitoring interessiert. Wir haben aber große Labels wie Warner Music als Kunden, die Musik-Beschlagwortung im großen Stil machen. Eine derart große Menge an Musik, die sie im Repertoire haben, zu beschlagworten, ist eine große Sache. Das kommt einerseits den Endnutzer:innen zugute, aber auch im Lizenzierungsprozess wirkt es sich positiv aus, weil sich so viel besser nach ganz spezifisch passendem Sound suchen lässt. Auch Smart Assistants wie Siri und Alexa liefern so bessere Ergebnisse durch unsere Technologie. Wenn ich sage: „Alexa, spiel mir eine 1980er Playlist, nicht zu schnell, mit melancholischer Grundstimmung“, dann funktioniert das durch die genaue Beschlagwortung viel besser.

Eines noch: Was verstehen Sie unter Personalisierung durch KI, über die ich auf der Homepage gelesen habe?

Thomas Lidy: Die Personalisierung steckt in der Music Recommendation für Streaming-Plattformen. Wenn man es genau nimmt, ist es das einzige Produkt, das personalisiert auf die einzelnen Nutzer:innen schaut, auch wenn es um Millionen von Nutzer:innen geht. Das heißt: Ich habe einen Song und schaue, für welche Zielgruppe er am besten passt. Auf der anderen Seite habe ich ein System, das eine Einzelperson auf einer Streaming-Plattform zu verstehen versucht. Unsere Technologie ist ein sogenannter hybrider Recommender, und ist damit eine der wenigen, die sowohl die Musik als auch die Nutzer:innen versteht. Die Hörgewohnheiten jeder und jedes Einzelnen werden über Monate (oder Jahre) hinweg analysiert. Nehmen wir an, wir beide, Sie und ich, klicken einen Ed Sheeran-Song an. Dann versteht das System, dass wir beide, obwohl wir in diesem Moment das Gleiche drücken, einen unterschiedlichen musikalischen Background haben, dass ich z. B. eher elektronische Musik bevorzuge und Sie lieber Rock oder Singer-Songwriter-Sachen mögen. Das heißt, wir beide drücken auf Ed Sheeran, bekommen aber auf der Basis der vorangegangenen individuellen Historie unterschiedliche Empfehlungen. So lässt sich hochgradig personalisiert Musik empfehlen, unter Berücksichtigung der individuellen Hörgewohnheiten aber auch des tatsächlichen musikalischen Inhalts bzw. Klangs.

Nur weil wir einen unterschiedlichen Background haben oder auch, weil ich die fünf Rock-lastigen Songs des Albums öfter höre, während Sie die übrigen fünf elektronischen präferieren?

Thomas Lidy: Beides. Aber je länger etwas, das ich gehört habe, zurückliegt, desto weniger relevant ist es. Wir können Stimmungen in der Musik in einem Detailgrad verstehen wie niemand anderer. Sechzig verschiedene Stimmungen. Wenn ich die Stimmung verstehe und die Nutzer:innen drei, vier Nummern dieser Stimmung hören, dann kann das wertvolle Anhaltspunkte für die Musikanalyse geben. Es zählt die Historie gehörter Musik über das ganze Jahr hinweg, aber auch das, was in den letzten fünfzehn Minuten gehört wurde. Dadurch verstehe ich, wie die Nutzer:innen jetzt gerade drauf sind und kann die perfekte Musik für den Moment liefern.

Vielen Dank für das Gespräch!

Markus Deisenberger

Link:
Utopia Music