Künstliche Intelligenz im Kontext der Kunst
Am Beispiel der Musik

Was leistet generative KI nicht? Sind wird bald alle – nach den manuell nun auch die Wissens- und Kreativarbeitenden – überflüssig? Kann KI nun auch Kunst? Irgendwie ja? Trotz der beeindruckenden Fortschritte der KI sollten wir nicht übersehen, welche Daten – darunter auch Kunstwerke – zum Training der KI-Modelle genutzt werden. Und es sind weitere kritische Fragen an diese Nutzung zu richten. Nicht zuletzt: was daran wäre wohl Kunst?

Von Daniel Martin Feige | 15.05.2024

Erstellt mit Adobe Firefly. Prompt: „illustration of a mechanical device making jazz music, in the colors black, white, red, yellow, purple, in the style of cubism, minimal“

Mit Hilfe künstlicher Intelligenz können nicht allein (mehr oder weniger) sinnvolle Texte produziert werden, sondern auch Bilder und Musik. Programme wie ,Midjourney‘ und ,Dall-E‘ auf der einen Seite und ,Suno‘ und ,Udio‘ auf der anderen Seite scheinen den Gedanken zu widerlegen, dass das Hervorbringen von ästhetischen Gegenständen und Kunstwerken allein dem Menschen vorbehalten ist. Wenn sich mit Hilfe von ,Udio‘ für Laien vom Original ununterscheidbare Bossa Nova Tracks ebenso wie Songs im Stile bestimmter Popbands der 1980er Jahre erstellen lassen: Spricht das nicht dafür, dass man selbst hochstehende geistige Fähigkeiten und Tätigkeiten durch KIs und damit in einem bestimmten Sinne maschinelle Verfahrensweisen nachbilden könne?

Ich werde im Folgenden dafür argumentieren, dass das nicht der Fall ist. Ich beginne mit einer Beschreibung der jüngst vieldiskutierten KIs zur Erstellung von Musik (I). Daraufhin werde ich die argumentativen Grundlagen der These, dass wir KIs geistige Fähigkeiten zuschreiben können, kritisch beleuchten (II). Abschließend frage ich auf der Grundlage des Gedankens, dass KI keine Kunst produzieren kann, welche produktive Rolle KIs im Kontext der Kunst zugeschrieben werden könnte (III).

I.

Jüngst sind vor allem Suno und Udio im Kontext musikproduzierender KIs in den Fokus der Aufmerksamkeit gerückt. Hier lassen sich mit wenigen Klicks musikalische Tracks erstellen, auf Wunsch auch mit Gesang und KI generierten Texten. Suno und Udio basieren wie alle jüngst diskutierten Beispiele auf den Architekturen der zweiten Welle der KI-Forschung. Vereinfacht gesagt war das Vorgehen in der ersten Welle der KI-Forschung, der KI festverdrahtete logische Schlussregeln zu implementieren, mit denen dann sinnvolle Sätze und Texte ausgegeben werden sollten. Dies stieß schnell an praktische Grenzen (unter anderem durch den hier vorausgesetzten verarmten Begriff der Sprache).¹ Der Paradigmenwechsel in der KI-Forschung lässt sich wie folgt fassen (Boden 2018 und Rosengrün 2021): KI ist heute statistische Generalisierung über sehr großen Datenmengen. Das erklärt, warum die Ergebnisse von KIs zugleich seltsam vertraut und gleichzeitig fremd sind (unter anderem, weil das, was die KIs ausgeben, nicht länger anhand von dichotomen Zuständen wie wahr oder falsch beschreibbar ist, sondern aufgrund von Wahrscheinlichkeiten zustande kommt).

Wie bereits im Falle der Bildgenerierungsprogramme lassen sich auch Suno und Udio nicht in die Karten schauen. Was bei den erstellten Songs auffällt, ist nicht allein die Tatsache, dass sich offenkundig solche Formen von Musik besonders lebensnah reproduzieren lassen, die bereits selbst stark standardisiert sind (bei einigen Arten von Popmusik wie Schlagern klappt es gut und selbst Funktracks grooven überraschenderweise, bei Neuer Musik und Modern Jazz kommt hingegen nur Unsinn heraus). Es fällt vor allem auf, dass man doch die Datengrundlagen sehr deutlich hört (Music Business Worldwide 2024). Suno ist hier generischer, etwas weiter weg von den Vorlagen, bei Udio glaubt man etwa eine sinnlose Variante von Miles Davis’ Trompetenspiel und Bill Evans’ Klavierspiel zu hören, wenn man richtig promptet. Wie auch den Ergebnissen der Chatbots merkt man den musikgenerierenden KIs an, dass sie nicht wissen, wovon sie sprechen.² Überdies gilt: Das Datentraining dieser KIs ist rechtlich fragwürdig. Das Vorgehen der hinter diesen KIs operierenden Unternehmen lässt sich so beschreiben, dass sie das geistige Eigentum dritter einspeisen, um Ergebnisse zu produzieren, die zwar im juristischen Sinne keine ,Schaffenshöhe‘ zeigen, deren Ergebnisse aber in frappierender Weise mitunter sogar Personalstilen zuzuordnen sind (Für musikalisch geschulte Hörer:innen ist offensichtlich, dass Udio nicht nur mit Miles Davis, sondern auch mit David Gahan trainiert worden ist). Die Diskurse um einen Abbau des Gatekeepings und die Demokratisierung der Kunst; die Diskurse um das Versprechen, dass nun jeder in die Lage versetzt werden können soll, Musik zu machen (ohne sich in solch zeitaufreibenden geistigen wie sinnlichen Tätigkeiten wie das Lernen eines Instruments oder der Beschäftigung mit Musiktheorie zu verlieren) sind in jedem Fall Augenwischerei: Entsprechende Unternehmen zielen mittelbar darauf ab, den Musikmarkt gewissermaßen zu übernehmen und ihn zu einem proprietären Markt zu machen.³

II.

Aber wie kommt man angesichts solch simulakrenhafter wie parasitärer Ergebnisse, die Suno und Udio produzieren, überhaupt auf die Idee, dass das Hervorbringen von ästhetischen Gegenständen und Kunstwerken jetzt keine Domäne menschlicher Tätigkeit mehr sei? Natürlich, die Ergebnisse der musikgenerierenden KIs sind (wenn sie nicht wie im Fall des Modern Jazz oder Neuer Musik sinnwidrig sind) zumindest in dem minimalen Sinne kreativ, dass sie eine Form der neuen Anordnung bekannter Elemente darstellen.⁴ Die meisten überraschten Reaktionen auf die mit Suno und Udio produzierten Tracks basieren aber auf dem Gedanken, dass man das hörbare Ergebnis im Einzelfall nicht von Menschenhand gemachter Musik unterscheiden kann. Das ist offenkundig ein epistemisches Kriterium; es setzt voraus, dass der Höreindruck hier die relevante Frage darstellt. Eine solche Position ist gleichwohl nicht haltbar. Arthur C. Danto hat geltend gemacht, dass man, wenn man „ein Bronzerad mit Nocken, genau wie das Kettenrad eines Fahrrads, bei Ausgrabungen in Tibet [fände], [es] ungeachtet seiner Identität als Artefakt kein frühzeitiges Fahrrad-Kettenrad sein [könnte].“ (1991: 174) Dieses Argument macht geltend, dass Wissen um die Entstehungsbedingungen eines Gegenstandes wie um die Absichten, die wir in der Entstehung sinnvoll zuschreiben können, einen Unterschied machen für unsere Antworten auf die Frage, um was es sich hier handelt.⁵ In diesem Sinne ist es tatsächlich eine Information, wenn man erfährt, dass ein Track, den man beim oberflächlichen Hören für einen generischen Popsong der Gegenwart hält, nicht durch Absichten der beteiligten Musiker:innen am Instrument oder bei der Produktion im Studio zustande kam, sondern durch statistische Generalisierungen über große Datenmengen. Wir können dann durchaus noch erstaunt darüber sein, wie ähnlich so ein Song den Vorlagen klingen mag (was zugleich etwas über die standardisierte Natur vieler Arten populärer Musik aussagt). Aber wir würden z.B. nicht länger die Frage stellen, warum sich der Komponist oder die Komponistin entschieden hat, diesen oder jenen Akkordwechsel einzubauen oder warum er sich für diese oder jene Instrumentierung entschieden hat – wir müssten hier über die konkreten Verfahrensweisen der KI sprechen. In diesem Sinne können Dinge, die phänomenal ähnlich sind, kategorial vollständig unterschiedenen Gegenstandsbereichen angehören.

Die phantasmatische Überhöhung der KI im Bereich des Hervorbringens von ästhetischen Gegenständen und Kunstwerken und darüber hinaus basiert auf einer Verwechslung einer epistemischen mit einer ontologischen Frage (und damit einer Verwechslung der Frage, ob ich unter bestimmten Bedingungen einen Unterscheid erkennen kann, mit der Frage, was der Unterschied zwischen zwei Dingen ist). Maßgeblich für diese Veränderung der Fragestellung ist der Turing-Test. Er geht auf Alan Turing zurück und besagt (Turing 1950: 433-460), dass eine Maschine das ,Imitationsspiel‘ dann gewinnt, wenn der menschliche Spieler zu dreißig Prozent falsch rät. Was Turing hier betreibt, lässt sich im Kontext jüngster fachphilosophischer Diskussionen als ,Conceptual Engineering‘ bezeichnen.⁶ Darunter werden Diskussionen darüber gefasst, welchen Aufgaben die Definition eines Begriffs dienen soll. So kann man die Bedeutung etwa des Begriffs des ,Geistes‘ oder des Begriffs des ,Denkens‘ gemäß der Art und Weise, wie wir diese Begriffe im Alltag und/oder in den Wissenschaften verwenden, aufklären. Oder – und das tut Turing – man gibt einem Begriff eine neue Bedeutung, die einer bestimmten praktischen Agenda dient. Turing hat Begriffe wie ,Geist‘ und ,Denken‘ so neugefasst, dass sie rechnergestützten Tests zugänglich werden. Er hat aber – und das ist der zentrale Punkt – damit nicht etwa einen Bedeutungskern oder einen minimalen Sinn des Begriffs des ,Geistes‘ gefunden. Er hat, so könnte man auch sagen, eigentlich den alten Begriff gegen einen neuen ausgetauscht und das alte Wort dabei bestehen lassen. Warum wir dieses Spiel auch und gerade mit Blick auf die Kunst nicht mitspielen sollten – dazu in gebotener Kürze Überlegungen im letzten Teil dieses Beitrags.

III.

Ich hatte bereits angemerkt, dass die musikgenerative KI nicht als neutrales Tool oder kreatives Hilfsmittel zu begreifen ist, dass zudem noch dem Abbau eines als falsch gewerteten Gatekeepings diene. Vielmehr ist die Praxis generativer KI mit der Frage verbunden, welchen Tech-Unternehmen diese Technologien gehören, in die massenhaft Material gespeist wird, das offenkundig nicht von ihnen stammt. Und ich hatte darauf verwiesen, dass sich besonders stark standardisierte Musik dafür eignet, durch generative KI hervorgebracht zu werden (wozu gar nicht allein Popmusik zählen muss, sondern etwa auch bestimmte Arten der Barockmusik gehören könnten). Abschließend möchte ich in einem Zusammendenken dieser beiden Thesen ausweisen, dass die Frage danach, ob KI Kunst kann, dann falsch gestellt ist, wenn sie als Frage danach verstanden wird, ob KI-Gemälde im Stile Van Goghs, Musik im Stile von Depeche Mode oder Texte im Stile von Eichendorf produzieren kann. Selbst wenn sie das könnte, wäre damit für die Kunstfrage nicht allein aufgrund der Argumentation im zweiten Teil wenig gewonnen. Dazu sind einige kursorische Festlegungen hinsichtlich des Kunstbegriffs nötig.

Im Anschluss an die mit Baumgarten ansetzende, über Kant und Hegel verlaufende und bis zu Adorno und Danto und darüber hinaus sich vollziehende philosophische Tradition des Nachdenkens über Ästhetik und Kunsttheorie ist zu erläutern,⁷ dass man bisher Kunst und das philosophische Denken stets in einer entfernten Nähe gesehen hat. Denn auch die Kunst ist zu Leistungen in der Lage, die oftmals der Philosophie zugeschrieben worden sind: Sie kann uns Relevantes über uns zeigen, tut das aber anders als die Philosophie: nicht im Medium des Begriffs, sondern vielmehr im Medium eigensinniger Konstellationen von künstlerischen Materialien (Worte, Klänge, Töne, Pixel, Bewegungen, Farben usf.). Kunst lässt sich damit als eine spezifische Weise der Reflexion unserer wesentlichen Orientierungen verstehen für die gilt, dass jedes Werk der Kunst eine solche Reflexion dadurch leistet, dass es ein sich in spezifischer Weise selbst reflektierter Gegenstand ist: Ein Drama Goethes verwendet seine Worte nicht nur, es konstituiert sie in der Verwendung; ein Spielfilm Hanekes gebraucht die filmischen Mittel nicht allein, sondern stellt diesen Gebrauch zugleich immer auch aus. Diese zwei genannten Arten von Werken machen deutlich, dass das historisch in je unterschiedlicher Weise geschieht (und wie Adorno gezeigt hat, ist der Motor dieser Transformation zugleich das andere der Kunst, die gesellschaftliche Realität). Unter der Ägide des Vordringens generativer KI in unterschiedliche gesellschaftliche Bereiche wie auch in die Kreativindustrie transformiert sich nun aber auch der Sinn dessen, was hier Reflexion heißt: Ein Werk der Kunst wird nicht durch den Gebrauch von KI hergestellt, sondern ist nichts anderes als eine in spezifischen materialen und medialen Formen vollzogene kritische Reflexion unserer Gebrauchsweisen von KI. Eine solcher Aufweis des Denkens im Vollzug und aus den Gebrauchsweisen heraus muss keineswegs immer in Form einer Unterbrechung geschehen, sondern kann auch durch die Integration von KI-Akteuren auf der Bühne (wie in einigen Arbeiten Sandeep Bhagwatis) geschehen.⁸ Kunst wird damit nicht durch KI hervorgebracht, sondern KI fordert Kunst derart heraus, dass sie in jüngsten Arbeiten kritisch auf etablierte und scheinbar selbstverständliche Gebrauchsweisen von KI in ihrem Medium (und zugleich auf ein verkürztes Verständnis von Kunst) reflektiert.

Wir sollten also weniger Angst davor haben, dass uns Maschinen geistig überlegen sein könnten. Vielmehr sollten wir Sorge tragen, dass eine solche These nicht zu einer Verkürzung im Begriff des Geistes, der Kunst und der Kritik führt. ■

Anmerkungen

Vgl. als klassische Studie dazu Dreyfus 1972. ↩︎
Vgl. dazu Smith 2019. ↩︎
Vgl. dazu Staab 2019. ↩︎
Das ist einer der Sinne, die Magaret Boden als zentrale Dimensionen der Kreativität bestimmt. Vgl. Boden 2011. ↩︎
Die Rolle des Autors hat Catrin Misselhorn auch ausgehend von Danto jüngst überzeugend mit Blick auf den Unterschied von Kunstwerken und mit KI hervorgebrachten Gegenständen verteidigt. Vgl. Misselhorn 2023. ↩︎
Vgl. v.a. Burgess/Cappelen/Plunkett 2020. ↩︎
Eine ausgezeichnete Skizze der Genese der Ästhetik findet sich mit Scheer 1997. ↩︎
Eine instruktive Rekonstruktion der Rolle der KI in gegenwärtigen kunstmusikalischen Praktiken findet sich mit Grüny 2022: 174-203. ↩︎

Literatur

Boden, Margaret A. (2018): Artificial Intelligence. A very short introduction. Oxford: Oxford University Press.

Boden, Magaret A. (2011): Creativity and Art. Three Roads to Surprise. Oxford: Oxford University Press.

Burgess, Alexis/Cappelen, Herman/Plunkett, David (Hrsg.), Conceptual Engineering and Conceptual Ethics. Oxford: Oxford University Press 2020.

Smith, Brian Cantwell (2019): The Promise of Artificial Intelligence. Reckoning and Judgment. Cambridge/Mass.: MIT Press.

Danto, Arthur C. (1991): Die Verklärung des Gewöhnlichen. Eine Philosophie der Kunst. Frankfurt am Main: Suhrkamp.

Dreyfus, Hubert L. (1972): What Computers can’t do. New York: MIT Press.

Grüny, Christian (2022): Seltsam attraktiv. KI und Musikproduktion. In: Schnell, Martin W./ Nehlsen, Lukas (Hrsg.): Begegnungen mit künstlicher Intelligenz. Intersubjektivität, Technik und Lebenswelt. Weilerswist: Velbrück Wissenschaft, S. 174-203.

Misselhorn, Catrin (2023): Künstliche Intelligenz – das Ende der Kunst? Stuttgart: Reclam.

Music Business Worldwide: “Suno is a music AI company aiming to generate $120 billion per year. But is it trained in copyright recordings?” [Webseitentext 2024], https://www.musicbusinessworldwide.com/suno-is-a-music-ai-company-aiming-to-generate-120-billion-per-year-newton-rex/?fbclid=IwZXh0bgNhZW0CMTEAAR3CnKkKRMw5vh1Rl4i0CCUBj5OJxFixk_DtHdc_BeppehNRc7RWuUxzwMg_aem_Afdhv_QM32hirGr_ZFhQ4NnmhcmXRrdIvwsn_FJWIUe8VtfxEcegsiP0KKa_1qiZp3STlp59WXO3yUlWmj7LsMVz [28.4.2024].

Rosengrün, Sebastian (2021): Künstliche Intelligenz zur Einführung. Hamburg: Junius.

Scheer, Brigitte (1997): Einführung in die philosophische Ästhetik. Darmstadt: WBG.

Staab, Philipp (2019): Digitaler Kapitalismus. Markt und Herrschaft in der Ökonomie der Unknappheit. Berlin: Suhrkamp.

Alan Turing (1950): Computing Machinery and Intelligence. In: Mind 236, S. 433-460.

Zitiervorschlag

Feige, Daniel Martin: Künstliche Intelligenz im Kontext der Kunst. Am Beispiel der Musik. In: Verantwortungsblog. https://www.zevedi.de/kuenstliche-intelligenz-im-kontext-der-kunst-am-beispiel-der-musik/ [15.05.2024].

Künstliche Intelligenz im Kontext der KunstAm Beispiel der Musik

I.

II.

III.

Anmerkungen

Literatur

Zitiervorschlag

Künstliche Intelligenz im Kontext der Kunst
Am Beispiel der Musik