Wir sind die RoboterKI und Pop
10.5.2023 • Kultur – Text: Ji-Hun Kim, Illustration mit Midjourney: Susann MassuteWelchen Einfluss werden Künstliche Intelligenzen auf die Popkultur und Musikproduktion haben? Und was hat das mit Theodor Adorno, E-Scootern und Avocados zu tun?
Der Wunsch, dass Maschinen für Menschen Musik machen ist bei weitem keine neue Idee. Bereits vor 2.000 Jahren erdachte Heron von Alexandria in seiner Schrift „Automata“ Musikmaschinen wie eine windbetriebene Orgel. Anders als in der Malerei, Architektur und Bildhauerei, verfliegen Klang und Musik immer in jenem Moment, in dem sie gespielt werden. Musik ist seit jeher eine zeitgebundene flüchtige Angelegenheit und bis zur Erfindung des Phonographen durch Thomas Edison im späten 19. Jahrhundert auch nicht speicherbar und reproduzierbar gewesen. Musik hören war also immer auch eine Frage des Talents und Könnens der spielenden Person.
Im Mittelalter waren mechanische Musikautomaten mit Glockenspielen populär, und bald darauf gab es selbstspielende Instrumente, die über Stiftwalzen angesteuert wurden. Diese Technik existiert bis heute in Spieluhren für Kinder. Einen großen Hype gab es im 19. Jahrhundert mit den sogenannten Pianolas (Automatenklavieren), die häufig in Cafés und Restaurants der Bohème standen und in der Gastronomie vor allem wegen wegfallender Personalkosten reizvoll waren. Außerdem konnte dank Automation der Pianist nicht mehr zu spät zur Arbeit kommen, miese Launen haben, Liederwünsche verweigern, geschweige denn regelmäßig die Bar leer saufen. Praktisch – wurden durch die Maschine doch viele Probleme auf einmal gelöst.
Über die folgenden Dekaden sind zahlreiche neue Maschinen in die Musik hinzugekommen. Und mit jeder neuen technologischen Innovation wurden harte ideologische Grabenkämpfe ausgefochten. Die Art der Debatten sind indes allesamt recht selbstähnlich. Als in Folge des Phonographen die Schallplatte zum Massenmedium für Musik wurde und in den Radiostationen nun Songs von Platte gespielt werden konnten, protestierten die Rundfunkorchester, die bis dahin live über den Äther spielten, gegen den vermeintlichen Untergang der Musikkultur. Vom Verlust der Arbeitsplätze ganz zu schweigen.
Folgt man dieser Lesart, gab es in der Zeit darauf noch einige nukleare Musikwinter. Mit Synthesizern wurden schlagartig analoge Instrumente obsolet. Drumcomputer machten Schlagzeuger:innen überflüssig. Sampler im HipHop beklauten eine ganze Ära der Musikaufzeichnungen. Und als Heimcomputer und Laptops mit der Zeit immer mehr als Heimstudio taugten, brauchte niemand mehr in ein kostspieliges Aufnahmestudio zu gehen oder sich von Labels abhängig machen, um überhaupt in die Lage zu kommen, Musik aufzuzeichnen. Und selbst in neueren Disziplinen wie dem DJing war es bis zuletzt ein Politikum, ob man Menschen, die digital und nicht mit Vinyl auflegten, überhaupt DJs nennen darf. Die dem Traditionalismus verhaftete Kaste der Musikschaffenden outete sich immer wieder als heimlicher Nostradamus-Fanclub.
Heute sind es Künstliche Intelligenzen, die auf der einen Seite für technikaffine Euphorie sorgen und auf der anderen Seite kräftiger Motor für kulturpessimistische Szenarien sind. Die Entwicklungen sind derzeit wahnsinnig rasant. Täglich erscheint ein neues Tool, das die Produktion und Komposition von Musik entweder wesentlich vereinfachen oder gar revolutionieren will. Die Vielfalt der Applikationen ist unterdessen beeindruckend. Und es ist nur ein erster Vorgeschmack darauf, inwiefern KI kreative Produktionen im Laufe der nächsten Jahre beeinflussen wird. Aber wie sieht dieser Einfluss aus? Wer wird von diesen Entwicklungen profitieren und wer nicht? Und welche Rolle spielen Politik und Systeme, wenn wir über KI-generierte Musik sprechen?
Kürzlich präsentierte Google das Sprachmodell MusicLM. Wenn in der Praxis zwar noch nicht für die Öffentlichkeit zugänglich, sorgten die bislang veröffentlichten Beispiele für reichlich Diskussionen und Erstaunen. Bei MusicLM wird Musik auf Basis von Textbefehlen generiert. Das Prinzip ist aus Bild-KIs wie Midjourney, DALL-E2 und Text-KIs wie ChatGPT bekannt. Statt „Male mir ein dreibeiniges Pferd im Stile von Vincent van Gogh“ oder „Schreibe mir eine Klausur über die gesellschaftliche Rolle der Klimaanlage in der Sowjetunion“, kann es nun bspw. heißen: „Komponiere einen Bluegrass-Song mit Mozart-Harmonien und Raps im Stile von Mos Def.“ MusicLM ist aber auch in der Lage, Musik aus Foto- und Bildbeschreibungen abzuleiten. Genauso lassen sich einzelne Fragmente wie Melodien durch unterschiedlichste Genres oder Instrumentierungen modulieren. Interessant ist, dass MusicLM bei elektronischer Musik wie Techno weitaus besser funktioniert als bei Spielarten wie Swing. Fast so, als wäre es für Maschinen einfacher, elektronische Maschinenmusik zu machen. Als befände sich die Transferschwelle hier mehr auf Augenhöhe. Ähnlich funktioniert Riffusion, das auf Basis der Open-Source-KI Stable Diffusion entwickelt wurde. Hier werden Prompts zunächst in visuelle Spektrogramme überführt und dann in Musik umgewandelt.
Anfangs mutet es magisch an, dass mit Hilfe eines Textbefehls, binnen weniger Sekunden Musik erschafft wird. Musik entsteht hier im ständigen Dialog mit den Maschinen und natürlich sind die Soundstücke, die bislang erklingen, noch weit davon entfernt schillernde Hits zu sein. Spannend sind die Plattformen dann, sobald man versucht, an ihre syntaktischen und semantischen Grenzen zu stoßen und Kreativität durch Fehler entstehen lässt. Das war mit den eingangs genannten Musikmaschinen aus dem 20. Jahrhundert nicht anders. Synthesizer wurden interessant, als man nicht nur versuchte, Querflöten und Geigen zu simulieren, sondern ihren genuinen Klangcharakter in den Vordergrund stellte. Drumcomputer wie die ikonischen Roland 808 und 909 waren schlecht darin, Fusion, Jazz oder Blues zu spielen. Es waren die repetitiven, dafür umso gewaltigeren Beats wie die im HipHop, House und Techno, die die Maschinen populär machten. Davor verstaubten sie als Ladenhüter, weil Rock- und Jazz-Musiker:innen damit redlich wenig anfangen konnten.
„Das wesentliche Problem liegt im Training der Maschinen. Welche Musikwelt wird repräsentiert, wenn vornehmlich weiße, westliche Männer, die für globale Milliardenunternehmen arbeiten, das Trainingsmaterial beschaffen und einspeisen?“
Textbasierte KI-Software wie Riffusion enttäuscht, wenn man eine möglichst authentische Kopie von Phil Collins oder Beyoncé haben möchte. Zu sehr überwiegen noch die digitalen Artefakte, wie man sie von schlecht komprimierten MP3s kennt – es ist nicht ausgefeilt genug. Gibt man aber Prompts ein wie „Avocados in einem italienischem Froschteich“ oder „Theodor Adorno auf dem E-Scooter“ wird man nicht selten positiv ob der sehr eigenen Ästhetik überrascht. Producer:innen würden sagen: Hier schlummert viel stabiles Sample-Material.
Vielseitig sind die Möglichkeiten der Interoperabilität zwischen verschiedenen KIs. So kann ChatGPT einen Rap-Text schreiben, der von der Text-to-Speech-Software Uberduck im Stil von Jay-Z oder Eminem gerappt werden kann. Dazu ein KI-Beat, fertig ist der Rap-Song. Bei so einer Herangehensweise überwiegt der kurze Wow-Effekt. Es ist evident, dass solch eklektische Ideen wenig Bestand geschweige denn künstlerische Qualität haben. Aber der Umgang von Künstler:innen mit KI in den nächsten Jahren wird zeigen, wie kreativ der Output werden kann, sobald man abstrakt und unorthodox mit Prompts und den Potenzialen der Technologie umgeht. Musiker:innen wie Holly Herndon oder Mouse on Mars arbeiten schon länger mit den Möglichkeiten von KI. Die K-Pop-Band Eternity besteht aus KI-Charakteren und gar keinen echten Menschen mehr. Auch weil das für diesen auf Hyperkapitalismus getrimmten Sektor eine günstigere und effizientere Alternative darstellen könnte – so lange die Fans mitspielen. Erfolgversprechend sind heute bereits KI-Plattformen wie Soundraw, die generische und vor allem Tantieme-freie Hintergrundmusik für YouTuber:innen, Influencer:innen oder Werbefilme herstellen. Die Bereiche Hintergrundmusik und funktionale Gebrauchsmusik werden zweifelsohne durch die derzeitigen Entwicklungen beeinflusst werden. Hier spielt die Musikalität auch eine untergeordnete Rolle.
Das wesentliche Problem liegt im Training der Maschinen. Welche Musikwelt wird repräsentiert, wenn vornehmlich weiße, westliche Männer, die für globale Milliardenunternehmen arbeiten, das Trainingsmaterial beschaffen und einspeisen? Die Datensätze von Googles MusicLM machen das deutlich. Hier dominieren Genres wie elektronische Musik (15,6 %), Klassik (13,7 %), Country und Blues (10,9 %) und Rock (10,5 %). Musik aus Lateinamerika nimmt gerade mal 3,5 % ein. Musik aus Asien 2,6 %. Die vielfältige und komplexe Musikwelt Afrikas wird hier unter ferner liefen verbucht. Westlicher Kulturimperialismus und systemische Diskriminierung qua mangelnder Sichtbarkeit leben also auch in den ständig wachsenden Datenbanken der Künstlichen Intelligenzen weiter und werden nur mühsam zu stoppen sein. Zeitgleich erreicht die Symbiose von Mensch, Musik und Maschine eine neue Ebene, die ganz im Sinne von Kraftwerk sein könnte. In ihrem Song „Taschenrechner“ von 1981 hieß es bereits: „Ich addiere und subtrahiere. Kontrolliere und komponiere. Und wenn ich diese Taste drück, spielt er ein kleines Musikstück. Ich bin der Musikant mit Taschenrechner in der Hand.“